分类：数据仓库

数据仓库建设流程概述

数仓理论

数据仓库建设是一个系统工程，通常遵循一套标准化的流程来确保项目的成功。以下是数据仓库建设的关键流程步骤概述：一、需求分析项目启动与目标定义明确目标（如提升数据质量、提高决策效率、统一管理数据等）确定业务范围、人力、时间线和关键利益相关者需求收集与分析🌟 与业务部门沟通，梳理关键业务问题与

数仓理论

一、总线矩阵的核心思想总线矩阵是 Kimball 维度建模方法论的基石。它不是一个集中式的单一模型，而是一种分步、增量地构建企业数据仓库的方法，确保最终所有数据能无缝集成。其核心是 “一致性”：一致性维度：在不同业务过程（如销售、库存、采购）的事实表中，相同的维度（如日期、产品、客户、门店）

数仓理论

数据仓库是一个体系庞大的领域，拥有许多专业名词术语。这里系统性地梳理和解释最核心、最常用的术语。

数据采集处理

什么是 Lambda 架构？ Lambda 架构是一种用于设计和实现大规模数据计算系统的架构模式，其核心目标是平衡延迟、吞吐量和容错性，以应对海量数据的实时查询和分析需求。它诞生的背景是传统批处理系统（如 Hadoop、Hive）无法满足低延迟查询场景，而纯流处理系统又难以保证数据准确性和历史数据

数据采集处理

Kappa 架构是作为对经典的 Lambda 架构的反思和简化而提出的。它的核心思想是：用一个统一的流处理系统来处理所有数据，无论是实时数据还是历史数据，从而消除 Lambda 架构中复杂的“批处理层”和“服务层”的双重维护。 1. Kappa 架构诞生的背景：Lambda 架构的挑战要理解 K

元数据血缘

在数据平台中，血缘（Data Lineage）是指对数据从源头到最终消费全过程的追踪与记录。它描述了数据的“产生、处理和使用”路径，包括数据是如何被采集、转换、集成、存储以及最终被报表、分析或机器学习模型所使用的。一、什么是数据血缘？数据血缘可以理解为数据的家族谱系图，它回答以下关键问题：

MST

一、题目现有一张员工在职所在部门信息表t_dep_his，包含员工ID、所属部门、开始日期、结束日期，请查询出如下内容 2024年1月31日A部门在职员工数； 2024年1月份A部门员工最多时有多少员工； 2024年1月份A部门平均有多少员工；

MST

一、题目有用户账户表：包含年份，用户id和余额。请按照年份分组，取出余额前两小和前两大对应的用户id。**注意：**需要保持余额最小和最大的用户id排首位。二、思路 1、计算每年每个用户余额的升序排名和降序排名。升序排名前两名就是余额前两小的用户，降序排名前两名就是前两大的用户。可以使用row

MST

一、题目有学生各学科分数表，记录了学生的各科分数，请按照学生粒度，生成两列数据分别为学科和分数，要求学科内的顺序与分数顺序一致。数据样例：二、思路这是一个行转列的典型问题，目标是将张三的三条记录合并为一条。根据题意最终的数据是这个样子：张三语文,数学,英语 95,80,82。要处理这

MST

一、题目有学生成绩表，包含学生姓名、学科、成绩三个字段，请用一条SQL查询出每个学科排名第三名的学生，他的学科成绩、总成绩、以及总排名。二、思路第一步：计算学科排名和总成绩，可以使用rank和sum的开窗函数实现第二步：计算总成绩排名，可以使用dense_rank实现