Windows上安装运行Spark

时间:2023-03-09 02:40:45
Windows上安装运行Spark

1.下载Scala: https://www.scala-lang.org/download/

①注意:必须下载官方要求的JDK版本,并设置JAVA_HOME,否则后面将出现很多麻烦!

Windows上安装运行Spark

②Scala当前最新版本为2.13.0,但是建议不要使用最新的版本,此处下载的是2.11.12

Scala所有版本列表:https://www.scala-lang.org/download/all.html

Windows上安装运行Spark

③设置环境变量

Windows上安装运行Spark

2.安装后在cmd中输入scala出现如下提示表示成功

Windows上安装运行Spark

3.下载Spark:http://spark.apache.org/downloads.html

Windows上安装运行Spark

4.进入spark-2.3.3-bin-hadoop2.7\bin,cmd中输入spark-shell

①出现下面错误,表示需要安装python。安装时选择加到系统路径中,安装完cmd中输入python验证是否安装成功。

Windows上安装运行Spark

②出现下面错误,表示找不到Hadoop。需要安装Hadoop并设置HADOOP_HOME的系统路径。关于Windows下的Hadoop安装,可以参考《Windows上安装运行Hadoop》。

Windows上安装运行Spark

③出现下面的WARN可以不用理会,正常使用。

Windows上安装运行Spark

如果实在受不了WARN的话,则在spark-2.3.3-bin-hadoop2.7\conf\log4j.properties(默认是有template后缀的,直接去掉这个后缀)中增加

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

④屏蔽后的显示

Windows上安装运行Spark

下面的内容为使用IDEA写一个Scala的demo并使用Spark-submit运行。

5.下载IDEA的Scala插件

Windows上安装运行Spark

6.创建Scala的IDEA项目

Windows上安装运行Spark

7.选择相应的JDK和Scala,创建一个HelloWorld项目

Windows上安装运行Spark

8.创建一个名字为Hello的Scala Object,会生成一个Hello.scala文件

Windows上安装运行Spark

9.在文件中输入如下代码

object Hello {
def main(args: Array[String]): Unit = {
println("Hello World");
}
}

10.在IDEA中Run一下,正常显示

Windows上安装运行Spark

11.使用Project Structure->Artifacts打包成HelloWorld.jar

Windows上安装运行Spark

12.将HelloWorld.jar拷贝到spark-2.3.3-bin-hadoop2.7\bin中,在cmd中执行

spark-submit --class Hello HelloWorld.jar

Windows上安装运行Spark

以上。