通过Hive小文件合并(CombineHiveInputFormat)减少80%的Map任务数

时间:2025-02-24 13:09:34
参数配置

SQL

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 启用合并输入 set mapred.max.split.size=256000000; -- 单个Map处理的最大数据量(默认256MB) set mapred.min.split.size.per.node=100000000; -- 单个节点最小合并阈值

通过将多个小文件合并为逻辑块,减少Map数量(例如将100个1MB文件合并为2个Map任务)