【文件属性】:
文件名称:spark-train:Spark使用过程中的一些操作实践
文件大小:1.33MB
文件格式:ZIP
更新时间:2021-05-11 20:49:37
spark Scala
spark-train
目录结构说明
Accumulator
计数器的使用
Broadcast
使用Spark实现Common Join和Map Join
MultipleOutput & Job run more
多目录输出(即partition by操作)和作业重跑机制的实现
MergeSmallFile
小文件的合并
ScalaOpHDFS
Scala操作HDFS文件系统,修改Spark输出到HDFS上的文件的名字
Spark SQL Debug
Spark SQL Debug操作指南
data
测试数据
注意: 所有的实现都是基于Spark Core实现的,基于Spark SQL的实现,部分章节将会在后续进行更新
【文件预览】:
spark-train-master
----06-Spark SQL Debug()
--------Spark SQL Debug.pdf(1.38MB)
----data()
--------emp3.txt(36KB)
--------emp2.txt(701B)
--------emp1.txt(656B)
----04-MergeSmallFile()
--------SmallFile()
--------README.md(505B)
----02-Broadcast()
--------Broadcast Code()
--------README.md(124B)
----05-ScalaOpHDFS()
--------ScalaOpHDFS()
--------README.md(587B)
----README.md(614B)
----01-Accumulator()
--------Accumulator Code()
--------README.md(1KB)
----03-MultipleOutput & Job run more()
--------01-MultipleOutput()
--------02-Job run more()
--------README.md(1KB)