sql优化: ---------------------------------------------------------------- 数据倾斜的处理方式: -- Q: 活动数据 和 对应的维表进行关联,其中某个活动特别的大。 A: 1) 给关联健加入一个随机的 1-10的值 2)将维度表 的关联健, 每个加上 1-10的值,将维度表扩充十倍。 3)然后将2个表进行join,从而来消除数据倾斜。 -- 尽量不使用count distinct 1) 通过select子查询优化 2) 通过建立临时表 -- 用in 来代替join select id,name from tb1 where id in(select id from tb2); in 要比join 快 -- Map join : 连接发生在map阶段 , 适用于小表 连接 大表 大表的数据从文件中读取 小表的数据存放在内存中(hive中已经自动进行了优化,自动判断小表,然后进行缓存) -- 1. 将大表放后头 3. 尽量尽早地过滤数据 4.尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑 5.避免使用select * , 不用列不要放进去 6.过滤不使用的数据分区 2. 使用相同的连接键 -- 配置 优化---------------------------------------------------------------------- 设置map 和reduce 为合理的数量 合并小文件
相关文章
- Java 类型, Hibernate 映射类型及 SQL 类型之间的相应关系
- 用SQL server导出到oracle,查询时提示“表或视图不存在ORA-00942”错误
- SQL 语句优化—— (一) 操作符优化
- Maven学习-优化和重构POM
- pl sql练习(1)
- LOJ #2537. 「PKUWC 2018」Minimax (线段树合并 优化dp)
- 面试问题 - SQL 中存储过程与函数的区别
- mysql 语句其它及优化
- General Ledger Useful SQL Scripts
- (转) java 通过 jdbc 链接 ms sql server 中出现 "no suitable driver for ..."