[b0013] Hadoop 版hello word mapreduce wordcount 运行(三)

时间:2025-05-01 13:06:56

目的:

不用任何IDE,直接在linux 下输入代码、调试执行

环境:

Linux  Ubuntu

Hadoop 2.6.4

相关:

[b0012] Hadoop 版hello word mapreduce wordcount 运行(二)

最佳:

简单方式:

在当前目录创建类文件,添加后面的内容,但是不包括第一行package

编译:

javac WordCount.java

打包

jar -cvf WordCount.jar ./WordCount*.class

执行

hadoop jar WordCount.jar WordCount /input /output

这种方式不能加package,如果加了package,即使最后一步这样也测试不通过  hadoop jar WordCount.jar 包路径.WordCount /input /output
加package的只能用本文后面的方法

1、准备程序

linux 新建工程文件夹

word, word/src, word/classes

在src下 新建类文件 WordCount.java,添加如下代码,注意第一行的包名,后面用到

 package hadoop.mapr;

 import java.io.IOException;
import java.util.*; import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; /**
* 描述:WordCount explains by xxm
* @author xxm
*/
public class WordCount { /**
* Map类:自己定义map方法
*/
public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
/**
* LongWritable, IntWritable, Text 均是 Hadoop 中实现的用于封装 Java 数据类型的类
* 都能够被串行化从而便于在分布式环境中进行数据交换,可以将它们分别视为long,int,String 的替代品。
*/
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
/**
* Mapper类中的map方法:
* protected void map(KEYIN key, VALUEIN value, Context context)
* 映射一个单个的输入k/v对到一个中间的k/v对
* Context类:收集Mapper输出的<k,v>对。
*/
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
context.write(word, one);
}
}
} /**
* Reduce类:自己定义reduce方法
*/
public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { /**
* Reducer类中的reduce方法:
* protected void reduce(KEYIN key, Interable<VALUEIN> value, Context context)
* 映射一个单个的输入k/v对到一个中间的k/v对
* Context类:收集Reducer输出的<k,v>对。
*/
public void reduce(Text key, Iterable<IntWritable> values, Context context)
throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
}
} /**
* main主函数
*/
public static void main(String[] args) throws Exception { Configuration conf = new Configuration();//创建一个配置对象,用来实现所有配置
// conf.set("fs.defaultFS", "hdfs://ssmaster:9000/"); Job job = new Job(conf, "wordcount");//新建一个job,并定义名称 job.setOutputKeyClass(Text.class);//为job的输出数据设置Key类
job.setOutputValueClass(IntWritable.class);//为job输出设置value类 job.setMapperClass(Map.class); //为job设置Mapper类
job.setReducerClass(Reduce.class);//为job设置Reduce类
job.setJarByClass(WordCount.class); job.setInputFormatClass(TextInputFormat.class);//为map-reduce任务设置InputFormat实现类
job.setOutputFormatClass(TextOutputFormat.class);//为map-reduce任务设置OutputFormat实现类 FileInputFormat.addInputPath(job, new Path(args[0]));//为map-reduce job设置输入路径
FileOutputFormat.setOutputPath(job, new Path(args[1]));//为map-reduce job设置输出路径
job.waitForCompletion(true); //运行一个job,并等待其结束
} }

2 编译、打包 Hadoop MapReduce 程序

2.1 我们将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中,在 /etc/profile 中增加 hadoop classpath的类包,source /etc/profile 生效

export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

2.2 切换到word目录,执行命令编译

javac -d classes src/*.java
  • -classpath,设置源代码里使用的各种类库所在的路径,多个路径用":"隔开。
  • -d,设置编译后的 class 文件保存的路径。
  • src/*.java,待编译的源文件。

备注:如果没有配置hadoop classpath路径,执行方式  javac -classpath 依赖hadoop包.jar -d classes src/*.java

执行结果:在classes文件夹 创建 hadoop/mapr,这是类的包名,产生的类有

hadoop@ssmaster:~/java_program/word$ ls classes/hadoop/mapr/
WordCount.class WordCount$Map.class WordCount$Reduce.class

2.3 将类文件夹classes打包到word目录

jar -cvf WordCount.jar classes
hadoop@ssmaster:~/java_program/word$ ls
classes src WordCount.jar

3 执行

启动hadoop,准备/input,确保没有/output

执行命令,由于类中有包名,这里要加上

hadoop  jar  WordCount.jar  hadoop.mapr.WordCount /input /output

会启动成功。 但是我的这里有什么异常,导致Hadoop集群退出 [遗留:运维重大问题]

总结:

hadoop mapreduce,hdfs的开发环境基本了解差不多

后续:

重点学习hdfs,mapreduce的任务编程

参考: