spark数据倾斜优化


数据倾斜的表现 当一个任务执行时间很长,并且只卡在一个或几个任务时,就是数据倾斜了。 比如一个任务执行了1个多小时,通过spark ui查看stage发现有个任务执行了50分钟,一定是数据倾斜了。 解决思路 1. spark 3.0 可以开启AQE(自适应查询执行)和数据倾斜自动优化

hive日期函数


Hive提供了丰富的日期处理函数,以下是一些常用且重要的日期函数分类整理: 一、获取当前时间 -- 当前日期和时间(Timestamp格式) SELECT current_timestamp(); -- 2024-01-15 10:30:45.123 -- 当前日期(Date格式) SELECT

ubuntu安装doris3.0.8


1. 环境准备 安装Java环境 可以安装开源版本也可以去oracle官网下载bin安装包 Doris 3.0+ 不再支持 Java 8,必须使用 Java 17 wget https://mirrors.tuna.tsinghua.edu.cn/Adoptium/17/jdk/x64/linux/

DataX安装部署

datax 

DataX 是阿里巴巴开源的一款异构数据源离线同步工具,支持多种数据源之间的高效数据同步。在 Ubuntu 系统上安装 DataX 主要包括以下几个步骤: 一、前提条件 安装 Java(JDK 1.8 或以上) 安装git 安装 Maven(用于编译,可选,如果直接使用官方打包好的版本则不需要) 二

Superset连接Hiveserver2


Superset 本身没有提供链接 Hive的想先,可以使用 PyHive 或 Impyla 这类专门的适配器库来与 HiveServer2 通信。 一:环境准备(安装连接器驱动) 首先,需要在运行 Superset 的 Python 环境中安装必要的 Python 库。 推荐使用 PyHive 方

hive3.1.3安装配置指南


环境准备 1. 前置条件 Hadoop集群:Hadoop 3.2.4(已正常启动) Java:JDK 8 数据库:MySQL(用于存储元数据) 2. 下载Hive wget https://archive.apache.org/dist/hive/hive-3.1.3/ap

Hadoop 3.2.4 伪分布式安装指南


环境准备 1. 系统要求 当前环境和版本: ubuntu24 hadoop-3.2.4 2. 安装必要的软件包:jdk和系统依赖 jdk可以从oracle官网下载,也可以使用linux安装openjdk,

spark内存模型


exector内存模型: spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用

flink barrier机制

flink 

好的,Flink 的 Barrier(屏障) 是其**容错机制的核心**,特别是实现 分布式一致性快照 的基石。理解 Barrier 是理解 Flink 如何保证“精确一次”语义的关键。 --- ### 一、Barrier 是什么? 简单比喻: 想象一个游乐场的过山车,管理人员想在某一精确时刻为所有

使用python安装superset5


环境: 服务器:Ubuntu 22.04.5 LTS python:3.11.9 superset:5.0.0 操作系统依 Superset 在其元数据数据库中存储数据库连接信息。为此,我们使用 cryptography Python 库来加密连接密码,此库需要操作系统级别的依赖项。 Ubuntu