通过Hive小文件合并（CombineHiveInputFormat）减少80%的Map任务数

时间：2025-02-24 13:09:34

参数配置：

SQL

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 启用合并输入 set mapred.max.split.size=256000000; -- 单个Map处理的最大数据量（默认256MB） set mapred.min.split.size.per.node=100000000; -- 单个节点最小合并阈值

通过将多个小文件合并为逻辑块，减少Map数量（例如将100个1MB文件合并为2个Map任务）

通过Hive小文件合并（CombineHiveInputFormat）减少80%的Map任务数



秒客网

通过Hive小文件合并（CombineHiveInputFormat）减少80%的Map任务数

相关文章