合并小文件-阵列信号处理

时间:2021-06-16 17:56:20
【文件属性】:
文件名称:合并小文件-阵列信号处理
文件大小:1.26MB
文件格式:PDF
更新时间:2021-06-16 17:56:20
hive 调优 (3)启动谓词下推 谓词下推(Predicate Pushdown)是一个逻辑优化:尽早的对底层数据进行过滤以 减少后续需要处理的数据量。通过以下参数启动谓词下推。 (4)开启 Map 端聚合功能 在 map 中会做部分聚集操作,能够使 map 传送给 reduce 的数据量大大减少,从而 在一定程度上减轻 group by 带来的数据倾斜。通过以下参数开启 map 端聚合功能。 (5)使用 Hive 合并输入格式 设置 Hive 合并输入格式,使 Hive 在执行 map 前进行文件合并,使得本轮 map 处理 数据量均衡。通过以下参数设置 Hive 合并输入格式。 (6)合并小文件 启动较多的 map 或 reduce 能够提高并发度,加快任务运行速度;但同时在 HDFS 上生成的文件数目也会越来越多,给HDFS的NameNode造成内存上压力,进而影响HDFS 读写效率。 对于集群的小文件(主要由 Hive 启动的 MR 生成)过多已造成 NameNode 压力时, 建议在 Hive 启动的 MR 中启动小文件合并。 小文件合并能够使本轮 map 输出及整个任务输出的文件完成合并,保证下轮 MapReduce 任务 map 处理数据量均衡。 (7)解决 group by 造成的数据倾斜 通过开启 group by 倾斜优化开关,解决 group by 数据倾斜问题。 开启优化开关后 group by 会启动两个 MR。第一个 MR Job 中,Map 的输出结果集 合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的 结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目 的;第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这 个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚 合操作。 (8)解决 Join 造成的数据倾斜 两个表关联键的数据分布倾斜,会形成 Skew Join。

网友评论