hadoop学习笔记(5)-运行任务(Job)小结:第三方jar包、hadoop jar命令

时间:2022-07-01 09:14:49

1、借助eclipse

在eclipse下面搭建hadoop开发环境的相关问题及其解决详见http://blog.csdn.net/bhq2010/article/details/7267747

有一个问题是:好像通过eclipse提交的程序并没有在集群上执行,而是在本机上执行了。

2、在命令下运行

首先需要将程序打成jar包,我用的eclipse写程序,也就用eclipse打包了,如果工程中包含第三方的jar包,可以用一个插件

Fat Jar Eclipse Plug-In

将第三方的jar包一起打出来,下载地址: http://sourceforge.net/projects/fjep/

手动打入第三方jar包参考:http://www.cnblogs.com/biGpython/archive/2011/11/09/2242396.html

用scp命令将打好的jar包以及输入文件上传到主节点。

用hadoop的dfs命令将输入文件上传到hdfs:

$ hadoop dfs -copyFromLocal localFilePath hdfsPath

用hadoop的jar命令运行任务:

$ hadoop jar ***.jar ***.***.***.MainClassName inputPath outputPath

其中指定主类时,需要把其包路径也指出来