MapReduce原理简介

MapReduce 是一种用于处理大规模数据集的编程模型和计算框架，最初由 Google 提出，并被 Hadoop 等开源项目广泛应用。它主要包括两个阶段：Map 阶段和 Reduce 阶段。下面是 MapReduce 的基本原理：

图示不错

Map 阶段（Map Phase）：
- 输入数据被分割成大小相等的数据块，然后由多个 Map 任务并行处理。
- 每个 Map 任务接收一部分数据块，并将其转换成键-值对（Key-Value pairs）的集合。
- 用户定义的 Map 函数（mapper）被应用于每个键-值对，生成新的键-值对列表。
- Map 函数的输出会根据键的哈希值被分发到多个 Reduce 任务中，以便后续的 Reduce 阶段处理。
Shuffle 阶段（Sort and Shuffle）：
- 在 Map 阶段之后，所有 Map 任务的输出会被分区并按照键的哈希值进行排序。
- 相同键的值被分配到相同的 Reduce 任务中，以便后续的 Reduce 阶段处理。
Reduce 阶段（Reduce Phase）：
- 每个 Reduce 任务接收来自多个 Map 任务的输出，即经过分区和排序后的键-值对集合。
- 用户定义的 Reduce 函数（reducer）被应用于每个键-值对列表，生成最终的输出结果。

在这里插入图片描述
以上过程分步骤描述一下：

创建 Split。由于 Map 任务最终是分布式的进程运行在不同的机器上，split 描述了每个 Map 任务该去哪台机器上的整块数据中，读取哪一部分的数据；
读取数据；
数据经过用户编写的 Map 业务处理，输入的是 Key-Value 格式，输出也是 Key-Value 格式。这一步其实是对数据标记的过程，为每条数据标记一个特征（key），相同特征的数据最终会到一起；
数据经过分区后，写入到内存缓冲区中；
内存缓冲区被写满 80%后，在内存中进行排序（先按照分区排序，每个分区内部按照 key 排序）；
如果定义了 combiner 的话，进行一次合并；
每个 Map 溢写出一个文件出来；
最终对每个 Map 溢写出的文件合并成一个大文件；
进行一次 combine，写入到本地文件中；
进行到 reduce 阶段，每个 reduce 任务从上游数据中拷贝出属于自己的文件
调用用户定义的 reduce 方法进行计算；
最终结果写入到 hdfs 中

在这里插入图片描述

在这里插入图片描述

word count的例子

博客例子图示

在这里插入图片描述

Map过程：并行读取文本，对读取的单词进行map操作，每个词都以<key,value>形式生成。
我的理解：
一个有三行文本的文件进行MapReduce操作。
读取第一行Hello World Bye World ，分割单词形成Map。
<Hello,1> <World,1> <Bye,1> <World,1>
读取第二行Hello Hadoop Bye Hadoop ，分割单词形成Map。
<Hello,1> <Hadoop,1> <Bye,1> <Hadoop,1>
读取第三行Bye Hadoop Hello Hadoop，分割单词形成Map。
<Bye,1> <Hadoop,1> <Hello,1> <Hadoop,1>
Reduce操作是对map的结果进行排序，合并，最后得出词频。
我的理解：
经过进一步处理(combiner),将形成的Map根据相同的key组合成value数组。
<Bye,1,1,1> <Hadoop,1,1,1,1> <Hello,1,1,1> <World,1,1>
循环执行Reduce(K,V[])，分别统计每个单词出现的次数。
<Bye,3> <Hadoop,4> <Hello,3> <World,2>