SparkCore| 算子
RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 A Resilient Distributed Dataset (RDD), th...
SparkCore | Rdd| 广播变量和累加器
Spark中三大数据结构:RDD; 广播变量: 分布式只读共享变量; 累加器:分布式只写共享变量; 线程和进程之间1.RDD中的函数传递自己定义一些RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列...
大数据--spark--核心:sparkCore
一. 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 在代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 二. RDD 的 5 个主要属性(property) 1一组分区(P...
Spark学习之路 (十)SparkCore的调优之Shuffle调优
摘抄自https://tech.meituan.com/spark-tuning-pro.html一、概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优...
Spark 项目实战企业级,源码深度剖析,机器学习,数据分析PySpark,SparkCore,SparkSQL,SparkStreaming,Kafka视频教程网盘下载
Spark 项目实战企业级,源码深度剖析,机器学习,数据分析PySpark,SparkCore,SparkSQL,SparkStreaming,Kafka视频教程网盘下载26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,...