数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
debezium
kafka
metabase
superset
hive
hive基础操作
hive性能优化
hive安装部署
spark
spark基础操作
spark性能优化
spark安装部署
flink
flin基础操作
flink性能优化
flink安装部署
hadoop
hadoop基础操作
hadoop性能优化
hadoop安装部署
doris
doris基础操作
doris安装配置
dolphin
datax
AI
基础知识
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
excel
微信
halo
maven
docker
git
code-server
confluence
nginx
dbt
jdk
编码
java
flask
python
scrapy
其他
mac
杂项
1panel
shell
邮箱
chrome
ubuntu
关于我
1
dolphinscheduler3.2.2 standalone安装部署
2
初识数据仓库
3
数据仓库建模方法概述(维度建模、ER建模)
4
指标建设规范
5
使用python安装superset5
登录
MaoMao
累计撰写
123
篇文章
累计创建
70
个分类
累计创建
216
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
debezium
kafka
metabase
superset
hive
hive基础操作
hive性能优化
hive安装部署
spark
spark基础操作
spark性能优化
spark安装部署
flink
flin基础操作
flink性能优化
flink安装部署
hadoop
hadoop基础操作
hadoop性能优化
hadoop安装部署
doris
doris基础操作
doris安装配置
dolphin
datax
AI
基础知识
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
excel
微信
halo
maven
docker
git
code-server
confluence
nginx
dbt
jdk
编码
java
flask
python
scrapy
其他
mac
杂项
1panel
shell
邮箱
chrome
ubuntu
关于我
目录
分类
数据仓库
数仓模型验证标准流程
2026-03-10
20
0
0
26.0℃
数据质量
作为数据仓库工程师,模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控,确保表的数据质量、性能、合规性完全符合设计与业务要求,以下是分阶段的详细验证步骤。 一、表结构与元数据规范性验证 基础中的基础,表结构不符合规范,后续数据验证均为无效工作,核心要求是与设计文档 100% 匹配,符
异常数据与边界场景验证
2026-03-10
3
0
0
24.3℃
数据质量
核心目标:提前发现潜在 bug,确保表在极端场景下稳定运行,规避上线后线上故障。 异常值检测与校验 数值型异常值:金额、数量、时长等字段无负数、无超出合理阈值的异常值(如年龄 > 150)。 示例 SQL:select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字
数据采集方案概述
2026-01-22
21
0
0
26.1℃
数据采集处理
数据采集(Data Ingestion) 是整个数据流水线的关键起点。一个稳健的采集方案直接影响后续数据的质量、时效性和可用性。以下是系统性的数据采集方案设计,涵盖核心原则、采集类型、技术选型及实施要点。 一、数据采集的核心目标 全量覆盖:确保关键数据源无遗漏。 高效稳定:支持高吞吐、低延迟、容错恢
数据仓库建设流程概述
2026-01-21
12
0
0
25.2℃
数仓理论
数据仓库建设是一个系统工程,通常遵循一套标准化的流程来确保项目的成功。以下是数据仓库建设的关键流程步骤概述: 一、需求分析 项目启动与目标定义 明确目标(如提升数据质量、提高决策效率、统一管理数据等) 确定业务范围、人力、时间线和关键利益相关者 需求收集与分析🌟 与业务部门沟通,梳理关键业务问题与
维度建模-总线矩阵
2026-01-15
10
0
0
25.0℃
数仓理论
一、总线矩阵的核心思想 总线矩阵是 Kimball 维度建模方法论的基石。它不是一个集中式的单一模型,而是一种分步、增量地构建企业数据仓库的方法,确保最终所有数据能无缝集成。 其核心是 “一致性”: 一致性维度:在不同业务过程(如销售、库存、采购)的事实表中,相同的维度(如 日期、产品、客户、门店)
维度建模-常用名词术语
2026-01-14
23
0
0
26.3℃
数仓理论
数据仓库是一个体系庞大的领域,拥有许多专业名词术语。这里系统性地梳理和解释最核心、最常用的术语。
Lambda架构概述
2026-01-12
13
0
0
25.3℃
数据采集处理
什么是 Lambda 架构? Lambda 架构是一种用于设计和实现大规模数据计算系统的架构模式,其核心目标是平衡延迟、吞吐量和容错性,以应对海量数据的实时查询和分析需求。 它诞生的背景是传统批处理系统(如 Hadoop、Hive)无法满足低延迟查询场景,而纯流处理系统又难以保证数据准确性和历史数据
Kappa架构概述
2026-01-12
10
0
0
25.0℃
数据采集处理
Kappa 架构是作为对经典的 Lambda 架构 的反思和简化而提出的。它的核心思想是:用一个统一的流处理系统来处理所有数据,无论是实时数据还是历史数据,从而消除 Lambda 架构中复杂的“批处理层”和“服务层”的双重维护。 1. Kappa 架构诞生的背景:Lambda 架构的挑战 要理解 K
数据血缘构建方案
2026-01-05
15
0
0
25.5℃
元数据血缘
在数据平台中,血缘(Data Lineage) 是指对数据从源头到最终消费全过程的追踪与记录。它描述了数据的“产生、处理和使用”路径,包括数据是如何被采集、转换、集成、存储以及最终被报表、分析或机器学习模型所使用的。 一、什么是数据血缘? 数据血缘可以理解为数据的家族谱系图,它回答以下关键问题:
部门人员数据分析
2025-11-09
17
0
0
25.7℃
MST
一、题目 现有一张员工在职所在部门信息表t_dep_his,包含员工ID、所属部门、开始日期、结束日期,请查询出如下内容 2024年1月31日A部门在职员工数; 2024年1月份A部门员工最多时有多少员工; 2024年1月份A部门平均有多少员工;
上一页
下一页
1
2
3
弹
通知
通知
本通知将在
null
秒后自动消失
我知道了