spark相关文章_第3页

Spark SQL性能优化
时间：2024-04-09 15:20:07
一.在内存中缓存数据Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用dataFrame.cache()内存列式格式缓存表。然后，Spark SQL将仅扫描所需的列，并将自动调整压缩以最大程度地减少内存使用和GC压力。可以调用spark.c...
解决spark运行时控制台打印冗杂的INFO（屏蔽掉无用的INFO）
时间：2024-04-09 15:19:18
今天在spark和hive整合完后启动SparkSql的时候控制台打印出了好多冗余的信息看起来特别不爽就一个 show databases；却打印出来这么多信息，让我着实不大容易找到我想要的信息呀解决方案：1. 进入$SPARK_HOME/conf目录下，拷贝一个log4j.properties....
《Spark大数据处理》—— 读后总结
时间：2024-04-09 14:46:55
前几章工作机制...
Spark2.1.0模型设计与基本架构（上）
时间：2024-04-08 15:31:27
随着近十年互联网的迅猛发展，越来越多的人融入了互联网——利用搜索引擎查询词条或问题；社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上；女孩子们现在少了逛街，多了在各大电商平台上的购买；喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续增加，造成互联网公...
利用Spark将Kafka数据流写入HDFS
时间：2024-04-08 12:40:47
利用Spark将Kafka数据流写入HDFS 在当今的大数据时代，实时数据处理和分析变得越来越重要。Apache Kafka作为一个分布式流处理平台，已经成为处理实时数据的事实标准。而Apache Spark则是一个强大的大数据处理框架，它提供了对数据进行复杂处理的能力。本篇博客将介绍如何使用Sp...
【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践（下）
时间：2024-04-08 09:14:37
【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践（下）目标：1. 深入理解Spark SQL 程序设计的原理2. 通过简单的命令来验证Spark SQL的运行原理3. 通过一个完整的案例来验证Spark SQL的运行原理，自己实际动手来进行掌握4....
【原创 Hadoop&Spark 动手实践 9】Spark SQL 程序设计基础与动手实践（上）
时间：2024-04-08 08:57:23
【原创 Hadoop&Spark 动手实践 9】SparkSQL程序设计基础与动手实践（上）目标：1. 理解Spark SQL最基础的原理2. 可以使用Spark SQL完成一些简单的数据分析任务3. 可以利用Spark SQL完成一个完整的案例...
【原创 Hadoop&Spark 动手实践 8】Spark 应用经验、调优与动手实践
时间：2024-04-08 08:49:06
【原创 Hadoop&Spark 动手实践 7】Spark 应用经验、调优与动手实践目标：1. 了解Spark 应用经验与调优的理论与方法，如果遇到Spark调优的事情，有理论思考框架。2. 把调优的过程，进行动手实践，完成一些调优的优化过程，加深理解。3. 做一个完整的调优的案例，再次加深...
spark相关面试题总结
时间：2024-04-08 08:47:27
（根据博客总结并不断增加自己的内容）1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合Dataset：就是一个集合，用于存放数据的...
【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示
时间：2024-04-08 08:35:26
【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示Spark 编程实例和简易电影分析系统的编写目标：1. 掌握理论：了解Spark编程的理论基础2. 搭建开发环境：自己可以搭建Spark程序开发的环境3. 动手实践简单的示例：完成一些简单的动手实验，可以帮助Sp...
spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA for Eclipse和IntelliJ IDEA皆适用）（以spark2.2.0源码包为例）（图文详解）
时间：2024-04-07 20:52:45
不多说，直接上干货！前言其实啊，无论你是初学者还是具备了有一定spark编程经验，都需要对spark源码足够重视起来。本人，肺腑之己见，想要成为大数据的大牛和顶尖专家，多结合源码和操练编程。好一段时间之前，写过这篇博客使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spar...
spark SQL 参数调优
时间：2024-04-07 20:51:25
1 spark.sql.codegen 默认值为false，当它设置为true时，Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行小规模的查询的时候反而会变慢，就是说直接用查询反而比将它编译成为java的二进制代码快。所以...
spark内核解析——spark master和worker的启动
时间：2024-04-07 18:03:37
更好的理解spark——spark master和worker的启动1、master通过start-master.sh 启动之后，首先创建了RpcENV。设置了MasterEndpoint这种通讯环境，然后通过onstart来初始化了自己的服务，通过receive和receiveAndReplay方...
spark2.1.0的源码编译
时间：2024-04-07 18:07:03
本文介绍spark2.1.0的源码编译1.编译环境：Jdk1.8或以上Hadoop2.7.3Scala2.10.4必要条件：Maven 3.3.9或以上（重要）点这里下载http://mirror.bit.edu.cn/apache/maven/maven-3/3.5.2/binaries/apac...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
时间：2024-04-07 17:53:05
#spark2.2.0源码编译#组件：mvn-3.3.9 jdk-1.8#wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spa...
最简大数据Spark-2.1.0
时间：2024-04-07 17:48:03
0.0 前言本文主要基于最新的Spark 2.1.0版本。阅读本文可以对Spark 2.1.0的学习过程，运行流程，关键组件，原理有所了解。文章有点长，你也可以直接阅读感兴趣的部分，但是还是建议全面了解。1.0 简介Spark是Apache软件基金会下的分布式系统开源项目。在官网中这样概况这个项目A...
Spark2.1.0编译
时间：2024-04-07 17:38:05
1.下载spark源码包http://spark.apache.org/downloads.html2.安装Scala与maven，解压spark源码包安装Scala：tar zxf scala-2.11.8.tar修改vim /etc/profileexport SCALA_HOME=/usr/s...
Eclipse+maven+scala2.11.8+spark2.0.0的环境部署
时间：2024-04-07 17:24:47
主要在maven-for-scalaIDE纠结了，因为在eclipse版本是luna4.x 里面有自己带有的maven。根据网上面无脑的下一步下一步，出现了错误，在此讲解各个插件的用途，以此新人看见了，少走一些弯路。其实主要的问题是自己独立去下载scala插件，把scala依赖包拷贝到eclipse...
mac os x 编译spark-2.1.0 for hadoop-2.7.3
时间：2024-04-07 17:11:42
mac os x maven编译spark-2.1.0 for hadoop-2.7.31.官方文档中要求安装Maven 3.3.9+ 和Java 8 ; 2.执行 export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"3....
Spark SQL的ThriftServer服务和图形化客户端
时间：2024-04-07 11:00:25
通常我们是在控制台输入命令：spark-sql进入命令行界面：这是大多数人最喜欢用的，也最熟悉的界面。除了这种方式，还可以借助第三方的客户端来接入Spark SQL，常用的windows下图形客户端有：SQuirreL SQL Client、DbVisualizer和Oracle SQL Devel...

1 2 3 4 5