数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
1
初识数据仓库
2
数据仓库建模方法概述(维度建模、ER建模)
3
dolphinscheduler standalone安装部署
4
指标建设规范
5
使用python安装superset5
登录
已删除用户
该用户已被删除。
累计撰写
88
篇文章
累计创建
61
个分类
累计创建
137
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
目录
分类
数据平台
spark数据倾斜优化
2025-12-18
19
0
1
27.9℃
spark性能优化
数据倾斜的表现 当一个任务执行时间很长,并且只卡在一个或几个任务时,就是数据倾斜了。 比如一个任务执行了1个多小时,通过spark ui查看stage发现有个任务执行了50分钟,一定是数据倾斜了。 解决思路 1. spark 3.0 可以开启AQE(自适应查询执行)和数据倾斜自动优化
hive日期函数
2025-12-02
10
0
0
25.0℃
hive基础操作
Hive提供了丰富的日期处理函数,以下是一些常用且重要的日期函数分类整理: 一、获取当前时间 -- 当前日期和时间(Timestamp格式) SELECT current_timestamp(); -- 2024-01-15 10:30:45.123 -- 当前日期(Date格式) SELECT
ubuntu安装doris3.0.8
2025-11-23
48
0
0
28.8℃
doris安装配置
1. 环境准备 安装Java环境 可以安装开源版本也可以去oracle官网下载bin安装包 Doris 3.0+ 不再支持 Java 8,必须使用 Java 17 wget https://mirrors.tuna.tsinghua.edu.cn/Adoptium/17/jdk/x64/linux/
DataX安装部署
2025-11-20
25
0
0
26.5℃
datax
DataX 是阿里巴巴开源的一款异构数据源离线同步工具,支持多种数据源之间的高效数据同步。在 Ubuntu 系统上安装 DataX 主要包括以下几个步骤: 一、前提条件 安装 Java(JDK 1.8 或以上) 安装git 安装 Maven(用于编译,可选,如果直接使用官方打包好的版本则不需要) 二
Superset连接Hiveserver2
2025-11-11
36
0
0
27.6℃
superset
Superset 本身没有提供链接 Hive的想先,可以使用 PyHive 或 Impyla 这类专门的适配器库来与 HiveServer2 通信。 一:环境准备(安装连接器驱动) 首先,需要在运行 Superset 的 Python 环境中安装必要的 Python 库。 推荐使用 PyHive 方
hive3.1.3安装配置指南
2025-11-07
73
0
0
31.3℃
hive安装部署
环境准备 1. 前置条件 Hadoop集群:Hadoop 3.2.4(已正常启动) Java:JDK 8 数据库:MySQL(用于存储元数据) 2. 下载Hive wget https://archive.apache.org/dist/hive/hive-3.1.3/ap
Hadoop 3.2.4 伪分布式安装指南
2025-11-06
38
0
0
27.8℃
hadoop安装部署
环境准备 1. 系统要求 当前环境和版本: ubuntu24 hadoop-3.2.4 2. 安装必要的软件包:jdk和系统依赖 jdk可以从oracle官网下载,也可以使用linux安装openjdk,
spark内存模型
2025-11-04
25
0
0
26.5℃
spark性能优化
exector内存模型: spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用
flink barrier机制
2025-11-04
2
0
0
24.2℃
flink
好的,Flink 的 Barrier(屏障) 是其**容错机制的核心**,特别是实现 分布式一致性快照 的基石。理解 Barrier 是理解 Flink 如何保证“精确一次”语义的关键。 --- ### 一、Barrier 是什么? 简单比喻: 想象一个游乐场的过山车,管理人员想在某一精确时刻为所有
使用python安装superset5
2025-08-22
99
0
0
33.9℃
superset
环境: 服务器:Ubuntu 22.04.5 LTS python:3.11.9 superset:5.0.0 操作系统依 Superset 在其元数据数据库中存储数据库连接信息。为此,我们使用 cryptography Python 库来加密连接密码,此库需要操作系统级别的依赖项。 Ubuntu
上一页
下一页
1
2
3
弹