分类：数据平台

kafka3.9.1KRaft模式集群部署

kafka

Apache Kafka 3.9.1 支持 KRaft（Kafka Raft Metadata）模式，即无需依赖 ZooKeeper 的纯 Kafka 元数据管理方式。以下是 KRaft 模式下部署 Kafka 集群的详细步骤，适用于生产或测试环境。 🧩 前提条件

metabase

环境 ubuntu24 jdk21 mysql8 metabase v0.57.6 安装下载metabase： https://downloads.metabase.com/latest/metabase.jar 创建mys

spark性能优化

spark版本：3.3.3

spark性能优化

数据倾斜的表现当一个任务执行时间很长，并且只卡在一个或几个任务时，就是数据倾斜了。比如一个任务执行了1个多小时，通过spark ui查看stage发现有个任务执行了50分钟，一定是数据倾斜了。解决思路 1. spark 3.0 可以开启AQE(自适应查询执行)和数据倾斜自动优化

dolphin

#!/bin/bash source ~/.bashrc source /home/hive/anaconda3/etc/profile.d/conda.sh # 切换python环境 conda activate my_spider; python /home/hive/git/test/t

hive基础操作

Hive提供了丰富的日期处理函数，以下是一些常用且重要的日期函数分类整理：一、获取当前时间 -- 当前日期和时间（Timestamp格式） SELECT current_timestamp(); -- 2024-01-15 10:30:45.123 -- 当前日期（Date格式） SELECT

doris安装配置

1. 环境准备安装Java环境可以安装开源版本也可以去oracle官网下载bin安装包 Doris 3.0+ 不再支持 Java 8，必须使用 Java 17 wget https://mirrors.tuna.tsinghua.edu.cn/Adoptium/17/jdk/x64/linux/

datax

DataX 是阿里巴巴开源的一款异构数据源离线同步工具，支持多种数据源之间的高效数据同步。在 Ubuntu 系统上安装 DataX 主要包括以下几个步骤：一、前提条件安装 Java（JDK 1.8 或以上）安装git 安装 Maven（用于编译，可选，如果直接使用官方打包好的版本则不需要）二

superset

Superset 本身没有提供链接 Hive的想先，可以使用 PyHive 或 Impyla 这类专门的适配器库来与 HiveServer2 通信。一：环境准备（安装连接器驱动）首先，需要在运行 Superset 的 Python 环境中安装必要的 Python 库。推荐使用 PyHive 方

hive安装部署

环境准备 1. 前置条件 Hadoop集群：Hadoop 3.2.4（已正常启动） Java：JDK 8 数据库：MySQL（用于存储元数据） 2. 下载Hive wget https://archive.apache.org/dist/hive/hive-3.1.3/ap