Apache Spark shell的实例操作

1、scala> val inFile = sc.textFile("./spam.data")

作用是将spam.data当作文本文件加载到Spark中，将spam.data文件中的每行作为一个RDD中的单独元素加载到Spark中，并返回一个名为inFile的RDD。

2、scala> val inFile = sc.textFile([filepath])

作用是，在本地模式下，可以将文件从本地直接加载

3、scala> import spark.SparkFiles;

scala> val file = sc.addFile("spam.data")

scala> val inFile = sc.textFile(SparkFiles.get("spam.data"))

作用是，让spam.data文件在所有机器上都有备份，使用了SparkContext类中的addFile函数。

4、scala> val nums = inFile.map(x => x.split(' ').map(_.toDouble))

作用是比较nums和inFile这两个RDD，确认一下两种数据的内容是一致的。

注意了，x=>x.toDouble与_.toDouble等价

5、scala> inFile.first()

作用是查看你inFile这个RDD中的第一个元素

6、持续推送

秒客网