分类：spark - 数据猫

Spark SQL即席查询-ThriftServer

spark安装部署

Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务，最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务，它允许各种客户端（如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等）

spark3.3 on hive模式配置

spark安装部署

Spark on Hive 是让 Spark 作为计算引擎，复用 Hive 的元数据（Metastore）和数据存储（HDFS）的一种部署 / 使用模式，替代 Hive 原生的 MR/Tez 引擎，大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下： Spark 不重新

spark依赖配置

spark安装部署

spark下载：版本：spark 3.3.2 官网： wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop2.tgz 华为镜像： wget https://mirrors.huaweicloud.

spark参数配置手册

spark性能优化

spark版本：3.3.3

spark数据倾斜优化

spark性能优化

数据倾斜的表现当一个任务执行时间很长，并且只卡在一个或几个任务时，就是数据倾斜了。比如一个任务执行了1个多小时，通过spark ui查看stage发现有个任务执行了50分钟，一定是数据倾斜了。解决思路 1. spark 3.0 可以开启AQE(自适应查询执行)和数据倾斜自动优化

spark内存模型

spark性能优化

exector内存模型： spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。堆内存：存储内存（Storage Memory）：作用：主要用

弹