hive sql 优化

sql优化： ---------------------------------------------------------------- 数据倾斜的处理方式： -- Q: 活动数据和对应的维表进行关联，其中某个活动特别的大。 A: 1) 给关联健加入一个随机的 1-10的值 2）将维度表的关联健，每个加上 1-10的值，将维度表扩充十倍。 3）然后将2个表进行join，从而来消除数据倾斜。 -- 尽量不使用count distinct 1）通过select子查询优化 2）通过建立临时表 -- 用in 来代替join select id,name from tb1 where id in(select id from tb2); in 要比join 快 -- Map join ：连接发生在map阶段，适用于小表连接大表大表的数据从文件中读取小表的数据存放在内存中（hive中已经自动进行了优化，自动判断小表，然后进行缓存） -- 1. 将大表放后头 3. 尽量尽早地过滤数据 4.尽量避免一个SQL包含复杂逻辑，可以使用中间表来完成复杂的逻辑 5.避免使用select * ，不用列不要放进去 6.过滤不使用的数据分区 2. 使用相同的连接键 -- 配置优化---------------------------------------------------------------------- 设置map 和reduce 为合理的数量合并小文件

相关文章