spark配置


spark下载: 版本:spark 3.3.2 官网: wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop2.tgz 华为镜像: wget https://mirrors.huaweicloud.

spark配置手册


spark版本:3.3.3

spark数据倾斜优化


数据倾斜的表现 当一个任务执行时间很长,并且只卡在一个或几个任务时,就是数据倾斜了。 比如一个任务执行了1个多小时,通过spark ui查看stage发现有个任务执行了50分钟,一定是数据倾斜了。 解决思路 1. spark 3.0 可以开启AQE(自适应查询执行)和数据倾斜自动优化

spark内存模型


exector内存模型: spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用