今天我们来讲一下如何看懂Hive的查询计划。
hive的执行计划包括三部分
– Abstract syntax tree – 可以直接忽略
– Stage dependencies – 依赖
– Stage plans – hive如何执行任务的信息.
下面还是以一个案例作为说明
设置自动连接为false的话,要走5步。
4 Map Reduces tells you something is not right.
Stage: Stage-1
Map Reduce
Stage: Stage-2
Map Reduce
Stage: Stage-3
Map Reduce
Stage: Stage-4
Map Reduce
设置自动连接为true就只有4步
Only 2 Map Reduces
Stage: Stage-8
Map Reduce
Stage: Stage-4
Map Reduce
hive直接就加载了要做连接的表,client和path表,其中client表做了过滤,剩下的map/reduce是用来连接和排序的。