• Spark SQL性能优化

    时间:2024-04-09 15:20:07

    一.在内存中缓存数据Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用dataFrame.cache()内存列式格式缓存表。然后,Spark SQL将仅扫描所需的列,并将自动调整压缩以最大程度地减少内存使用和GC压力。可以调用spark.c...

  • 解决spark运行时控制台打印冗杂的INFO(屏蔽掉无用的INFO)

    时间:2024-04-09 15:19:18

    今天在spark和hive整合完后启动SparkSql的时候控制台打印出了好多冗余的信息看起来特别不爽就一个 show databases; 却打印出来这么多信息,让我着实不大容易找到我想要的信息呀解决方案:1. 进入$SPARK_HOME/conf目录下,拷贝一个log4j.properties....

  • 《Spark大数据处理》—— 读后总结

    时间:2024-04-09 14:46:55

    前几章工作机制...

  • Spark2.1.0模型设计与基本架构(上)

    时间:2024-04-08 15:31:27

    随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题;社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上;女孩子们现在少了逛街,多了在各大电商平台上的购买;喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续增加,造成互联网公...

  • 利用Spark将Kafka数据流写入HDFS

    时间:2024-04-08 12:40:47

    利用Spark将Kafka数据流写入HDFS 在当今的大数据时代,实时数据处理和分析变得越来越重要。Apache Kafka作为一个分布式流处理平台,已经成为处理实时数据的事实标准。而Apache Spark则是一个强大的大数据处理框架,它提供了对数据进行复杂处理的能力。 本篇博客将介绍如何使用Sp...

  • 【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践(下)

    时间:2024-04-08 09:14:37

    【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践(下)目标:1. 深入理解Spark SQL 程序设计的原理2. 通过简单的命令来验证Spark SQL的运行原理3. 通过一个完整的案例来验证Spark SQL的运行原理,自己实际动手来进行掌握4....

  • 【原创 Hadoop&Spark 动手实践 9】Spark SQL 程序设计基础与动手实践(上)

    时间:2024-04-08 08:57:23

    【原创 Hadoop&Spark 动手实践 9】SparkSQL程序设计基础与动手实践(上)目标:1. 理解Spark SQL最基础的原理2. 可以使用Spark SQL完成一些简单的数据分析任务3. 可以利用Spark SQL完成一个完整的案例...

  • 【原创 Hadoop&Spark 动手实践 8】Spark 应用经验、调优与动手实践

    时间:2024-04-08 08:49:06

    【原创 Hadoop&Spark 动手实践 7】Spark 应用经验、调优与动手实践目标:1. 了解Spark 应用经验与调优的理论与方法,如果遇到Spark调优的事情,有理论思考框架。2. 把调优的过程,进行动手实践,完成一些调优的优化过程,加深理解。3. 做一个完整的调优的案例,再次加深...

  • spark相关面试题总结

    时间:2024-04-08 08:47:27

    (根据博客总结并不断增加自己的内容)1.spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的...

  • 【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示

    时间:2024-04-08 08:35:26

     【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示Spark 编程实例和简易电影分析系统的编写目标:1. 掌握理论:了解Spark编程的理论基础2. 搭建开发环境:自己可以搭建Spark程序开发的环境3. 动手实践简单的示例:完成一些简单的动手实验,可以帮助Sp...

  • spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA for Eclipse和IntelliJ IDEA皆适用)(以spark2.2.0源码包为例)(图文详解)

    时间:2024-04-07 20:52:45

    不多说,直接上干货!前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来。本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程。好一段时间之前,写过这篇博客使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spar...

  • spark SQL 参数调优

    时间:2024-04-07 20:51:25

    1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行小规模的查询的时候反而会变慢,就是说直接用查询反而比将它编译成为java的二进制代码快。所以...

  • spark内核解析——spark master和worker的启动

    时间:2024-04-07 18:03:37

    更好的理解spark——spark master和worker的启动1、master通过start-master.sh 启动之后,首先创建了RpcENV。设置了MasterEndpoint这种通讯环境,然后通过onstart来初始化了自己的服务,通过receive和receiveAndReplay方...

  • spark2.1.0的源码编译

    时间:2024-04-07 18:07:03

    本文介绍spark2.1.0的源码编译1.编译环境:Jdk1.8或以上Hadoop2.7.3Scala2.10.4必要条件:Maven 3.3.9或以上(重要)点这里下载http://mirror.bit.edu.cn/apache/maven/maven-3/3.5.2/binaries/apac...

  • Spark记录-源码编译spark2.2.0(结合Hive on Spark/Hive on MR2/Spark on Yarn)

    时间:2024-04-07 17:53:05

    #spark2.2.0源码编译#组件:mvn-3.3.9 jdk-1.8#wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spa...

  • 最简大数据Spark-2.1.0

    时间:2024-04-07 17:48:03

    0.0 前言本文主要基于最新的Spark 2.1.0版本。阅读本文可以对Spark 2.1.0的学习过程,运行流程,关键组件,原理有所了解。文章有点长,你也可以直接阅读感兴趣的部分,但是还是建议全面了解。1.0 简介Spark是Apache软件基金会下的分布式系统开源项目。在官网中这样概况这个项目A...

  • Spark2.1.0编译

    时间:2024-04-07 17:38:05

    1.下载spark源码包http://spark.apache.org/downloads.html2.安装Scala与maven,解压spark源码包安装Scala:tar zxf scala-2.11.8.tar修改vim /etc/profileexport SCALA_HOME=/usr/s...

  • Eclipse+maven+scala2.11.8+spark2.0.0的环境部署

    时间:2024-04-07 17:24:47

    主要在maven-for-scalaIDE纠结了,因为在eclipse版本是luna4.x 里面有自己带有的maven。根据网上面无脑的下一步下一步,出现了错误,在此讲解各个插件的用途,以此新人看见了,少走一些弯路。其实主要的问题是自己独立去下载scala插件,把scala依赖包拷贝到eclipse...

  • mac os x 编译spark-2.1.0 for hadoop-2.7.3

    时间:2024-04-07 17:11:42

    mac os x maven编译spark-2.1.0  for hadoop-2.7.31.官方文档中要求安装Maven 3.3.9+ 和Java 8 ; 2.执行        export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"3....

  • Spark SQL的ThriftServer服务和图形化客户端

    时间:2024-04-07 11:00:25

    通常我们是在控制台输入命令:spark-sql进入命令行界面:这是大多数人最喜欢用的,也最熟悉的界面。除了这种方式,还可以借助第三方的客户端来接入Spark SQL,常用的windows下图形客户端有:SQuirreL SQL Client、DbVisualizer和Oracle SQL Devel...