数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
1
初识数据仓库
2
数据仓库建模方法概述(维度建模、ER建模)
3
dolphinscheduler standalone安装部署
4
指标建设规范
5
使用python安装superset5
登录
已删除用户
该用户已被删除。
累计撰写
88
篇文章
累计创建
61
个分类
累计创建
137
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
目录
分类
数据仓库
数据采集方案概述
2026-01-22
13
0
0
25.3℃
数据采集处理
数据采集(Data Ingestion) 是整个数据流水线的关键起点。一个稳健的采集方案直接影响后续数据的质量、时效性和可用性。以下是系统性的数据采集方案设计,涵盖核心原则、采集类型、技术选型及实施要点。 一、数据采集的核心目标 全量覆盖:确保关键数据源无遗漏。 高效稳定:支持高吞吐、低延迟、容错恢
数据仓库建设流程概述
2026-01-21
6
0
0
24.6℃
数仓理论
数据仓库建设是一个系统工程,通常遵循一套标准化的流程来确保项目的成功。以下是数据仓库建设的关键流程步骤概述: 一、需求分析 项目启动与目标定义 明确目标(如提升数据质量、提高决策效率、统一管理数据等) 确定业务范围、人力、时间线和关键利益相关者 需求收集与分析🌟 与业务部门沟通,梳理关键业务问题与
维度建模-总线矩阵
2026-01-15
7
0
0
24.7℃
数仓理论
一、总线矩阵的核心思想 总线矩阵是 Kimball 维度建模方法论的基石。它不是一个集中式的单一模型,而是一种分步、增量地构建企业数据仓库的方法,确保最终所有数据能无缝集成。 其核心是 “一致性”: 一致性维度:在不同业务过程(如销售、库存、采购)的事实表中,相同的维度(如 日期、产品、客户、门店)
维度建模-常用名词术语
2026-01-14
17
0
0
25.7℃
数仓理论
数据仓库是一个体系庞大的领域,拥有许多专业名词术语。这里系统性地梳理和解释最核心、最常用的术语。
Lambda架构概述
2026-01-12
11
0
0
25.1℃
数据采集处理
什么是 Lambda 架构? Lambda 架构是一种用于设计和实现大规模数据计算系统的架构模式,其核心目标是平衡延迟、吞吐量和容错性,以应对海量数据的实时查询和分析需求。 它诞生的背景是传统批处理系统(如 Hadoop、Hive)无法满足低延迟查询场景,而纯流处理系统又难以保证数据准确性和历史数据
Kappa架构概述
2026-01-12
9
0
0
24.9℃
数据采集处理
Kappa 架构是作为对经典的 Lambda 架构 的反思和简化而提出的。它的核心思想是:用一个统一的流处理系统来处理所有数据,无论是实时数据还是历史数据,从而消除 Lambda 架构中复杂的“批处理层”和“服务层”的双重维护。 1. Kappa 架构诞生的背景:Lambda 架构的挑战 要理解 K
数据血缘构建方案
2026-01-05
11
0
0
25.1℃
元数据血缘
在数据平台中,血缘(Data Lineage) 是指对数据从源头到最终消费全过程的追踪与记录。它描述了数据的“产生、处理和使用”路径,包括数据是如何被采集、转换、集成、存储以及最终被报表、分析或机器学习模型所使用的。 一、什么是数据血缘? 数据血缘可以理解为数据的家族谱系图,它回答以下关键问题:
dolphin执行python脚本
2025-12-17
8
0
0
24.8℃
调度和报警
#!/bin/bash source ~/.bashrc source /home/hive/anaconda3/etc/profile.d/conda.sh # 切换python环境 conda activate my_spider; python /home/hive/git/test/t
部门人员数据分析
2025-11-09
12
0
0
25.2℃
MST
一、题目 现有一张员工在职所在部门信息表t_dep_his,包含员工ID、所属部门、开始日期、结束日期,请查询出如下内容 2024年1月31日A部门在职员工数; 2024年1月份A部门员工最多时有多少员工; 2024年1月份A部门平均有多少员工;
查询前2大和前2小用户并有序拼接
2025-11-09
13
0
0
25.3℃
MST
一、题目 有用户账户表:包含年份,用户id和余额。请按照年份分组,取出余额前两小和前两大对应的用户id。**注意:**需要保持余额最小和最大的用户id排首位。 二、思路 1、计算每年 每个用户余额的升序排名和降序排名。升序排名前两名就是余额前两小的用户,降序排名前两名就是前两大的用户。可以使用row
上一页
下一页
1
2
3
弹