Spark SQL即席查询-ThriftServer


Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务,最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务,它允许各种客户端(如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等)

spark3.3 on hive模式配置


Spark on Hive 是让 Spark 作为计算引擎,复用 Hive 的元数据(Metastore) 和数据存储(HDFS) 的一种部署 / 使用模式,替代 Hive 原生的 MR/Tez 引擎,大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下: Spark 不重新

spark依赖配置


spark下载: 版本:spark 3.3.2 官网: wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop2.tgz 华为镜像: wget https://mirrors.huaweicloud.

spark参数配置手册


spark版本:3.3.3

spark数据倾斜优化


数据倾斜的表现 当一个任务执行时间很长,并且只卡在一个或几个任务时,就是数据倾斜了。 比如一个任务执行了1个多小时,通过spark ui查看stage发现有个任务执行了50分钟,一定是数据倾斜了。 解决思路 1. spark 3.0 可以开启AQE(自适应查询执行)和数据倾斜自动优化

spark内存模型


exector内存模型: spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用