分类：数据平台

分类
数据平台

spark配置

spark安装部署

spark下载：版本：spark 3.3.2 官网： wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop2.tgz 华为镜像： wget https://mirrors.huaweicloud.

Hive Catalog

hive基础操作

一、什么是 Hive Catalog？ Hive Catalog 是 Apache Hive 提供的元数据管理服务，用于存储表结构（schema）、数据库、分区信息、表位置等元数据。它通常依赖于关系型数据库（如 MySQL、PostgreSQL）作为底层存储。

flink配置

flink安装部署

flink 1.20.3下载 # 官网: wget https://dlcdn.apache.org/flink/flink-1.20.3/flink-1.20.3-bin-scala_2.12.tgz # 清华镜像： wget https://mirrors.tuna.tsinghua.edu.c

kafka基本操作

kafka

创建topic： /home/phoenix/apps/kafka_2.13-3.9.1/bin/kafka-topics.sh \ --create \ --bootstrap-server 192.168.1.211:9092 \ --topic mysql-bin-tab1 \

debezium读取mysql binlog

debezium

先决条件确认在执行以下步骤前，请确保已满足以下条件： ✅ MySQL已开启Binlog（ROW模式） ✅ Kafka集群已运行 ✅ Kafka Connect服务已启动（端口8083可用） ✅ Debezium MySQL连接器插件已安装到Kafka Connect 🚀 详细实施步骤

debezium3.4基于kafka-connect安装部署

debezium

Debezium 3.4的安装部署，其核心是作为插件集成到Apache Kafka Connect框架中来工作。根据环境，可以选择不同的部署方式。下面的表格汇总了三种主流部署方式：

Kafka Connect分布式服务

kafka

部署Kafka Connect 3.9的分布式集群，核心是配置一个由多个Worker进程组成的、能够自动协调和容错的系统。与单机模式不同，分布式模式下，集群的状态和配置都存储在Kafka内部主题中，以实现高可用。下面的表格整理了部署的核心步骤概览：

kafka3.9.1KRaft模式集群部署

kafka

Apache Kafka 3.9.1 支持 KRaft（Kafka Raft Metadata）模式，即无需依赖 ZooKeeper 的纯 Kafka 元数据管理方式。以下是 KRaft 模式下部署 Kafka 集群的详细步骤，适用于生产或测试环境。 🧩 前提条件

ubuntu安装metabase

metabase

版本 ubuntu24 jdk21 mysql8 metabase v0.57.6 安装创建mysql数据库：在mysql中新建数据库：metabase 启动metabase: export MB_DB_TYPE=mysql export MB_DB_USER=metabase export M

spark配置手册

spark性能优化

spark版本：3.3.3