在 Windows 上安装Spark(PySpark库)(无需安装 Hadoop )

时间:2024-04-11 18:13:53

在 Windows 上安装Spark(PySpark库)(无需安装 Hadoop )

1.需要预装 Anaconda ,推荐从清华镜像下载符合你机器配置的最新版。

2.确保你的电脑已经安装好了 Java 7+ 。对了,Java 安装路径中不能有空格!路径中不能有空格!

3.访问 Apache Spark 网站,下载 Apache Spark:

在 Windows 上安装Spark(PySpark库)(无需安装 Hadoop )

  • 1. 选择一个 Spark 版本 (Choose a Spark release)
  • 2. 选择软件包类型 (Choose a package type)
  • 3. 点击链接,开始下载 Spark 。

注:1.、2.  默认选项为最新版本,若无特殊要求选择下载最新版本即可。

这里下载的版本为 spark-2.3.1-bin-hadoop2.7 。如果你下载了新版本的 Spark ,那么你需要根据你下载版本的版本号调整接下来的环境变量设置。

4.你会下载得到 spark-2.3.1-bin-hadoop2.7.tgz ;解压它你会得到 spark-2.3.1-bin-hadoop2.7.tar ;继续解压你会得到名为 spark-2.3.1-bin-hadoop2.7 的文件夹;将该文件夹放在 C:\spark 中。

(你也可以将该文件夹放在任何你想放的地方:但是需要根据路径调整接下来的环境变量设置,路径中不能有空格!

5. 从链接下载 winutils.exe 并放到你电脑中的 spark-2.3.1-bin-hadoop2.7\bin 文件夹下。

winutils.exe 是用来在windows环境下模拟文件操作的。

6. 修改环境变量:

  • 添加以下变量到你的环境变量:

SPARK_HOME        C:\spark\spark-2.3.1-bin-hadoop2.7

HADOOP_HOME        C:\spark\spark-2.3.1-bin-hadoop2.7

PYSPARK_DRIVER_PYTHON        ipython

PYSPARK_DRIVER_PYTHON_OPTS         notebook

  • 添加    ;C:\spark\spark-2.3.1-bin-hadoop2.7\bin    到 PATH 。

这样就可以在任意目录下打开 spark notebook 了。不懂添加环境变量的请自行百度。

7. 打开 CMD ,然后输入命令:spark-shell 。如果看到如下字样:

在 Windows 上安装Spark(PySpark库)(无需安装 Hadoop )

完成!


问题:从 Anaconda 启动 Jupyter Notebook ,无法加载 pyspark ,提示错误:No module named 'pyspark' 。

原因: Anaconda 的环境变量中没有加入 pyspark 。

解决方案:将目录 spark-2.3.0-bin-hadoop2.7\python 中 spark 文件夹复制放入目录 Anaconda3\Lib\site-packages 中。


有问题请反馈,没问题请点赞。