MapReduce原理简介

时间:2024-04-12 08:55:31

MapReduce 是一种用于处理大规模数据集的编程模型和计算框架,最初由 Google 提出,并被 Hadoop 等开源项目广泛应用。它主要包括两个阶段:Map 阶段和 Reduce 阶段。下面是 MapReduce 的基本原理:

图示不错

MapReduce 的基本原理:

  1. Map 阶段(Map Phase)

    • 输入数据被分割成大小相等的数据块,然后由多个 Map 任务并行处理。
    • 每个 Map 任务接收一部分数据块,并将其转换成键-值对(Key-Value pairs)的集合。
    • 用户定义的 Map 函数(mapper)被应用于每个键-值对,生成新的键-值对列表。
    • Map 函数的输出会根据键的哈希值被分发到多个 Reduce 任务中,以便后续的 Reduce 阶段处理。
  2. Shuffle 阶段(Sort and Shuffle)

    • 在 Map 阶段之后,所有 Map 任务的输出会被分区并按照键的哈希值进行排序。
    • 相同键的值被分配到相同的 Reduce 任务中,以便后续的 Reduce 阶段处理。
  3. Reduce 阶段(Reduce Phase)

    • 每个 Reduce 任务接收来自多个 Map 任务的输出,即经过分区和排序后的键-值对集合。
    • 用户定义的 Reduce 函数(reducer)被应用于每个键-值对列表,生成最终的输出结果。

在这里插入图片描述
以上过程分步骤描述一下:

  1. 创建 Split。由于 Map 任务最终是分布式的进程运行在不同的机器上,split 描述了每个 Map 任务该去哪台机器上的整块数据中,读取哪一部分的数据;
  2. 读取数据;
  3. 数据经过用户编写的 Map 业务处理,输入的是 Key-Value 格式,输出也是 Key-Value 格式。这一步其实是对数据标记的过程,为每条数据标记一个特征(key),相同特征的数据最终会到一起;
  4. 数据经过分区后,写入到内存缓冲区中;
  5. 内存缓冲区被写满 80%后,在内存中进行排序(先按照分区排序,每个分区内部按照 key 排序)
  6. 如果定义了 combiner 的话,进行一次合并
  7. 每个 Map 溢写出一个文件出来;
  8. 最终对每个 Map 溢写出的文件合并成一个大文件;
  9. 进行一次 combine,写入到本地文件中;
  10. 进行到 reduce 阶段,每个 reduce 任务从上游数据中拷贝出属于自己的文件
  11. 调用用户定义的 reduce 方法进行计算
  12. 最终结果写入到 hdfs 中

在这里插入图片描述

  • 这个 Map 任务计算之后,经过一个 partition 分区器,不同的 key 分配到不同的分区中。分区数量由下游的 reduce 数来决定。
  • 经过分区后的数据,进入到一个环形缓冲区中,并且多次溢写之后,生成小文件。每个 Map Task 最终合并成一个文件。
  • 可以看到 merge 最后的一个文件中是分段的,第一段的数据是给下游的第一个reduce任务的,第二段的数据是给下游的第二个 reduce 的。
  • 也就是下游的 每个 reduce 要来上游的每个 Map 任务的文件中,取到属于自己的那一段文件
  • reduce 任务拉取完上游的各个分段数据之后,进行一次合并,合并到同一个文件中
  • reduceTask 读取这个合并好的文件,把相同的key分组一次,进行计算即可

在这里插入图片描述
在这里插入图片描述

word count的例子

博客例子图示

  • 并行读取文本中的内容,然后进行MapReduce操作

在这里插入图片描述

  • Map过程:并行读取文本,对读取的单词进行map操作,每个词都以<key,value>形式生成。
  • 我的理解:
    一个有三行文本的文件进行MapReduce操作。
  • 读取第一行Hello World Bye World ,分割单词形成Map。
    <Hello,1> <World,1> <Bye,1> <World,1>
  • 读取第二行Hello Hadoop Bye Hadoop ,分割单词形成Map。
    <Hello,1> <Hadoop,1> <Bye,1> <Hadoop,1>
  • 读取第三行Bye Hadoop Hello Hadoop,分割单词形成Map。
    <Bye,1> <Hadoop,1> <Hello,1> <Hadoop,1>
    在这里插入图片描述
  • Reduce操作是对map的结果进行排序,合并,最后得出词频。
  • 我的理解:
  • 经过进一步处理(combiner),将形成的Map根据相同的key组合成value数组。
    <Bye,1,1,1> <Hadoop,1,1,1,1> <Hello,1,1,1> <World,1,1>
  • 循环执行Reduce(K,V[]),分别统计每个单词出现的次数。
    <Bye,3> <Hadoop,4> <Hello,3> <World,2>
    在这里插入图片描述