windows64位在IDEA下配置pyspark环境

时间:2024-04-07 20:33:31

之前一直在用scala,用IDEA配合maven使用,就没有在本地搭建spark环境,现在改用python,发现配置麻烦了很多,记录下,方便参考:
1)本地已经装好了JDK1.8,IDEA2017,scala2.11.8
2)先安装python,这里装的是2.7.15,下载地址:python安装包官网下载
安装后记得配置环境变量,命令行输入python,如下图所示即成功:
在IDEA中搜python插件安装,如果网络不好,需要手动下载安装

3)安装spark,安装包:spark
选好对应版本,点击下载:
windows64位在IDEA下配置pyspark环境

如果只是在IDEA上开发的话,到这里就可以了

4)安装hadoop,在这里选择对应版本下载:hadoop下载
我下载的是2.6.4,因为2.6.0好像不支持JDK1.8
配置环境变量

5)下载winutil.exe下载
将对应版本的复制到hadoop的bin目录下

6)将spark目录下的pyspark文件夹复制到python安装目录Lib\site-packages里

在path中新增:%HADOOP_HOME%\bin,即可

7)在cmd命令行下输入:spark-shell
windows64位在IDEA下配置pyspark环境

8)安装py4j库
一般的在cmd命令行下输入: pip install py4j
windows64位在IDEA下配置pyspark环境

9)输入pyspark