大数据知识脉络总结 时间:2021-11-03 15:32:43 【文件属性】: 文件名称:大数据知识脉络总结 文件大小:4.33MB 文件格式:XMIND 更新时间:2021-11-03 15:32:43 hadoop 分布式计算框架 编程模型 InputFormat Map 输入:偏移量、一行数据 输出:Text,Text 自定义对象 shuffle 数据从map端拉取 归并(汇总) 排序 Reduce 输入:Text,list 输出:Text,Text OutputForamt 特殊组件 partitioner 数据分区 key.hashcode % reduceTaskNum combiner 本地reduce,在map阶段运行 看情况使用 排序&TopN; 共同好友计算 分布式资源调度框架 架构 原理 分配流程 立即下载