hive 中order by 与 sort by 的区别

时间:2021-09-22 16:27:22

相信大家在执行Hive语句时要进行排序时总会第一想到order by,我也是!

但每次只要是涉及到order by 都发现MapReduce了好久

今天我尝试了用sort by 代替了order by惊讶地发现MapReduce时间远远比使用order by的时间更短!

以下是具体的

执行了select ip,count(ip) from ip_to_country group by ip order by ip;

发现MapReduce过程如下第一张图

hive 中order by 与 sort by 的区别

执行了select ip,count(ip) from ip_to_country group by ip sort  by ip;

发现MapReduce过程如下第二张图

hive 中order by 与 sort by 的区别

可以通过观察所花时间看出来!

还有因为在这个过程中每个执行语句都涉及到两个MapReduce任务,所以每张图才会有两个mapreduce过程!