分类：数据仓库

分类
数据仓库

为什么需要数据血缘治理

元数据血缘

数据模型血缘治理的核心不是"建一张血缘图"，而是从建模规范到自动采集、从健康监控到影响分析，形成一套跑得通的闭环。这篇文章会沿着 Kimball 维度建模、dbt DAG、DataHub/OpenMetadata 这条线，把字段级血缘的自动化和规模化讲清楚，顺带聊聊"数据血压管理"这个运维视角——把

数仓需求开发的传统痛点与AI机遇

数仓实战

摘要：数据仓库需求开发长期面临沟通成本高、口径不一致、交付周期长三个问题。随着 AI 智能体（Agent）技术的成熟，从自然语言自动生成 ETL 代码、编排数据工作流、自动配置质量规则这件事，已经从概念走到了生产环境。本文以阿里巴巴 DataWorks Data Agent 为例，结合 Kimbal

数据仓库为什么一定要分层？把 ODS、DWD、DWS、ADS 一次讲透

数仓理论

导读 / Key Takeaways 数据仓库分层的核心，不是记住 ODS/DWD/DWS/ADS 这些缩写，而是用清晰边界管理数据资产生产过程。 ODS 负责保留原始真相，DWD 负责沉淀可复用明细，DWS 负责沉淀公共汇总，ADS 负责面向业务交付结果。真正决定分层成败的，不是层名，而是原始层

数据仓库 vs 数据湖 vs 湖仓一体：一文看懂该选哪个

数仓理论

核心答案（Answer-First）：数据仓库适用于结构化数据的高性能 BI 分析场景，数据湖适用于海量原始数据的低成本存储与灵活处理，**湖仓一体（Lakehouse）**通过统一存储与计算，在同一平台上同时支持 BI 、实时计算和机器学习训练，是当前重要的发展方向之一。一、数据仓库、数据湖、

数据仓库-维度表开发指南

数仓理论

一、什么是维度表？为什么它如此重要？在数据仓库领域，维度表 (Dimension Table) 是星型模式的核心组成部分，用于为事实数据提供业务上下文和描述性信息。想象一下，你有一张记录销售交易的事实表，但如果没有产品、客户、时间等维度表，这些交易数据只是一堆毫无意义的数字。维度表的核心特征 ┌

星型、雪花与星座模型架构的性能与选择

数仓理论

数仓建模中的模型架构分类主要取决于查询性能（星型）与数据一致性（雪花型）的权衡。星型模型 (Star Schema) 采用去规范化（Denormalization）设计，极大减少了多表 Join的性能消耗，是现代云数据仓库中高性能 BI 分析的首选。雪花模型 (Snowflake Schem

数据仓库的起源和发展历程

数仓理论

萌芽（1970s–1980s初）早在数据仓库概念正式提出之前，企业已经面临一个核心矛盾：业务系统（OLTP）既要处理日常事务，又要支撑管理决策分析，两者需求截然不同，混用导致性能严重下降。这一时期，MIT研究团队提出"分析系统与业务系统分离"的架构，为数据仓库奠定理论基础。概念形成期（1980

数仓模型验证标准流程

数据质量

作为数据仓库工程师，模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控，确保表的数据质量、性能、合规性完全符合设计与业务要求，以下是分阶段的详细验证步骤。一、表结构与元数据规范性验证基础中的基础，表结构不符合规范，后续数据验证均为无效工作，核心要求是与设计文档 100% 匹配，符

异常数据与边界场景验证

数据质量

核心目标：提前发现潜在 bug，确保表在极端场景下稳定运行，规避上线后线上故障。异常值检测与校验数值型异常值：金额、数量、时长等字段无负数、无超出合理阈值的异常值（如年龄 > 150）。示例 SQL：select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字

数据采集方案概述

数据采集处理

数据采集（Data Ingestion）是整个数据流水线的关键起点。一个稳健的采集方案直接影响后续数据的质量、时效性和可用性。以下是系统性的数据采集方案设计，涵盖核心原则、采集类型、技术选型及实施要点。一、数据采集的核心目标全量覆盖：确保关键数据源无遗漏。高效稳定：支持高吞吐、低延迟、容错恢