【文件属性】:
文件名称:hadoop-mapreduce
文件大小:21.47MB
文件格式:ZIP
更新时间:2021-05-18 07:50:44
Java
#Hadoop-Mapreduce从Hadoop集群中的CDX文件中提取德国报纸和新闻站点的子集
怎么跑
使用以下代码编译和打包代码
mvn package
现在,目录target中应该有一个名为gen.sub-0.0.1-SNAPSHOT-job.jar的.jar,其中包含运行所需的所有类。 将.jar复制到集群并使用
hadoop jar gen.sub-0.0.1-SNAPSHOT-job.jar inputDirectory outputDirectory
在运行之前,请确保已设置内存规范,如下所示:
export YARN_OPTS=-Xmx30G
export HADOOP_CLIENT_OPTS="-Xmx10g"
hadoop jar gen.sub-0.0.1-SNAPSHOT-job.jar har:/data/ia/derivatives/de/cdx/TB.
【文件预览】:
hadoop-mapreduce-master
----.gitignore(0B)
----.project(536B)
----README.md(707B)
----pom.xml(4KB)
----target()
--------gen.sub-0.0.1-SNAPSHOT-job.jar(21.44MB)
--------test-classes()
--------maven-archiver()
--------gen.sub-0.0.1-SNAPSHOT.jar(5KB)
--------maven-status()
--------classes()
--------surefire-reports()
----.settings()
--------org.eclipse.core.resources.prefs(115B)
--------org.eclipse.jdt.core.prefs(238B)
--------org.eclipse.m2e.core.prefs(86B)
----src()
--------test()
--------main()
----.classpath(996B)