数据倾斜的表现 当一个任务执行时间很长,并且只卡在一个或几个任务时,就是数据倾斜了。 比如一个任务执行了1个多小时,通过spark ui查看stage发现有个任务执行了50分钟,一定是数据倾斜了。 解决思路 1. spark 3.0 可以开启AQE(自适应查询执行)和数据倾斜自动优化