最详细10招Spark数据倾斜调优

数据量大并不可怕，可怕的是数据倾斜。

数据倾斜发生的现象

绝大多数 task 执行得都非常快，但个别 task 执行极慢。

在进行 shuffle 的时候，必须将各个节点上相同的 key 的数据拉取到某个节点

上的一个 task 来进行处理，比如按照 key 进行聚合或 join 等操作。此时如果某个 key 对应的数据量特

别大的话，就会发生数据倾斜。

当出现数据倾斜时，小量任务耗时远高于其它任务，从而使得整体耗时过大，未能充分发

挥分布式系统的并行计算优势。另外，当发生数据倾斜时，少量部分任务处理的数据量过大，可能造成

内存不足使得任务失败，并进而引进整个应用失败。

1、整体耗时过大（整个任务的完成由执行时间最长的那个Task决定）

2、应用程序可能异常退出（某个Task执行时处理的数据量远远大于正常节点，则需要的资源容易出现瓶颈， 当资源不足，则应用程序退出）

3、资源闲置（处理等待状态的Task资源得不到及时的释放，处于闲置浪费状态）

Stage 的数据来源主要分为如下两类：

1、数据源本身分布有问题：从数据源直接读取。如读取HDFS，Kafka，有可能出现，大概率不会

2、自己指定的分区规则：读取上一个 Stage 的 Shuffle 数据

我们知道了导致数据倾斜的问题就是 shuffle 算子，所以我们先去找到代码中的 shuffle 的算子，比如

distinct、groupByKey、reduceByKey、aggergateByKey、join、cogroup、repartition 等，

可以有很多种查看key分布的方式：

1、如果是Spark SQL中的group by、join语句导致的数据倾斜，那么就查询一下 SQL 中使用的表的key

分布情况。

2、如果是对 Spark RDD执行shuffle算子导致的数据倾斜，那么可以在Spark作业中加入查看 key 分布

的代码，比如 RDD.countByKey()。然后对统计出来的各个key出现的次数，collect/take到客户端打印

一下，就可以看到key的分布情况。