为了开发测试方便,想直接在 IDEA 里运行 Spark 程序,可以连接 Hive,需不是打好包后,放到集群上去运行。主要配置工作如下:
1. 把集群环境中的 hive-core.xml, hdfs-site.xml, core-site.xml 三个文件复制一份,放到 resource 目录下。网上有说只需要放 hive-core.xml 就可以了。我部署的是高可用的集群,只复制 hive-core.xml 会报错。三个都放就不会有问题了。
2. 在本机上解压 hadoop 的安装包,下载 winutils.exe 文件,放在 <hadoop安装包目录>/bin/ 下面。并创建如下的两个 windows 的环境变量。HADOOP_HOME 就是指向的 <hadoop安装包目录>。
如果不做上面的操作的话,会出现如下的错误。 HDOOP_USER_NAME 的作用是指定以哪个用户运行 Spark 程序,不指定的话,会连不上 Hadoop。
Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executablenull\bin\winutils.exe in the Hadoop binaries.
注意:配置好环境变量后,关掉 IDEA ,重启一下。要不然环境变量没生效。