【原】简述使用spark集群模式运行程序

时间:2022-10-31 05:17:40
本文前提是已经正确安装好scala,sbt以及spark了
 
简述将程序挂载到集群上运行的步骤:
1、构建sbt标准的项目工程结构:
【原】简述使用spark集群模式运行程序
其中:
~/build.sbt文件用来配置项目的基本信息(项目名、组织名、项目版本、使用的scala版本或者再次配置些项目所需的依赖包);
project/build.properties文件配置你要使用什么版本的sbt对项目操作;
project/plugins.sbt文件是给项目添加所需的插件;
project/Build.scala文件是对项目进行些复杂的高级配置;
详细的sbt安装配置实用参见博文:http://www.cnblogs.com/vincent-hv/p/3309805.html
 
2、到相应目录下编写程序,spark程序必须要创建一个SparkContext实例。
SparkContext("master", "projectName", "SPARK_HOME", "yourProject.jar path")
 
3、sbt compile命令编译程序无错后,sbt package命令将程序打包。默认打包的jar文件存放路径为:
项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
 
4、将打包好的jar问价添加到SPAK_CLASSPATH中(在linux中根据作用范围的不同有多种更改环境变量的方式,这里只说我的配置方式:spark根目录下的conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx)
 
5、配置好环境变量后就可以在spark的根目录下使用./run脚本运行你的程序了
例如:./run spark.examples.SparkPi spark://masterIP:port
注意,如果程序涉及IO操作起默认路径为SPARK_HOME;至于如何修改这个路径,有待研究