数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据服务
可视化
数据治理
数据安全
元数据
血缘
MST
数据平台
Hive
hive安装部署
hive性能优化
hive基础操作
Spark
flink
hadoop
doris
doris基础
doris安装配置
dolphin
datax
数据库
mysql
mysql基础
dml(数据操纵语言)
ddl(数据定义语言)
dcl(数据控制语言)
mysql安装部署
工具使用
git
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
jdk
chrome
ubuntu
1
初识数据仓库
2
数据仓库建模方法
3
DolphinScheduler Standalone安装部署
4
使用python安装superset5
5
指标建设规范
登录
已删除用户
该用户已被删除。
累计撰写
53
篇文章
累计创建
46
个分类
累计创建
64
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据服务
可视化
数据治理
数据安全
元数据
血缘
MST
数据平台
Hive
hive安装部署
hive性能优化
hive基础操作
Spark
flink
hadoop
doris
doris基础
doris安装配置
dolphin
datax
数据库
mysql
mysql基础
dml(数据操纵语言)
ddl(数据定义语言)
dcl(数据控制语言)
mysql安装部署
工具使用
git
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
jdk
chrome
ubuntu
目录
分类
数据仓库
查询每个产品每年总销售额
2025-11-09
7
0
0
24.7℃
MST
一、题目 已知有表如下,记录了每个产品id、产品名称、产品销售开始日期、产品销售结束日期以及产品日均销售金额,请计算出每个产品每年的销售金额。 二、思路 要计算每个产品每年的销售金额,需要得到每年的销售明细,观察数据可以发现有销售开始和结束日期,可以借此得到每个产品每天的销售额,lateral vi
奖金瓜分问题
2025-11-09
4
0
0
24.4℃
MST
一、题目 在活动大促中,有玩游戏瓜分奖金环节。现有奖金池为 10000元,代表奖金池中的初始额度。用户的分数信息如下表。表中的数据代表每一个用户和其对应的得分,user_id 和 score 都不会有重复值。瓜分奖金的规则如下:按照 score 从高到低依次瓜分,每个人都能分走当前奖金池里面剩余奖金
连续登陆超过N天的用户
2025-11-05
12
0
0
25.2℃
MST
一、题目 现有用户登录日志表 user_login_log,包含用户ID(user_id),登录日期(login_date)。数据已经按照用户日期去重,请查出连续登录超过4天的用户ID 样例数据
使用python安装superset5
2025-08-22
62
0
0
30.2℃
可视化
环境: 服务器:Ubuntu 22.04.5 LTS python:3.11.9 superset:5.0.0 操作系统依 Superset 在其元数据数据库中存储数据库连接信息。为此,我们使用 cryptography Python 库来加密连接密码,此库需要操作系统级别的依赖项。 Ubuntu
指标建设规范
2025-08-06
43
0
0
28.3℃
指标系统
一、指标定义 指标是用于衡量业务目标达成程度的可量化参数,它是将抽象的业务目标转化为具体、可操作、可衡量的数值标识。在企业运营中,指标如同 “导航仪”,通过对业务数据的提炼和计算,直观展现业务的运行状态、发展趋势和存在问题。 例如,电商企业的 “销售额” 指标,能够直接反映企业的销售业绩;互联网产品
数据质量监控报警
2025-07-10
17
0
0
25.7℃
调度和报警
配置好建模任务后,如何保障任务连续性和数据质量? 比如调度任务若因系统故障、资源不足或代码错误导致失败,未配置监控时需人工巡检才能发现,可能延误数小时甚至数天,如何解决?再比如重要数据必须9点前产出,如何保证?数据是否有重复?值是否准确? 下面从数据质量监控分类(完整性、准确性、一致性、时效性)和报
常用的任务调度系统
2025-06-23
35
0
0
27.5℃
调度和报警
一、任务调度系统在数据仓库中的核心价值 在数据仓库体系中,任务调度系统扮演着 "神经中枢" 的角色,其核心作用体现在: 自动化流程控制:实现 ETL 作业、数据同步、报表生成等任务的定时触发与执行 依赖关系管理:处理任务间的上下游依赖(如必须先完成 ods 层数据加载才能执行 dws 层聚合) 资源
事实表设计
2025-06-12
28
0
0
26.8℃
数仓理论
一、引言 在数据仓库的架构体系中,事实表是承载业务核心数据、支撑数据分析的关键组件。本文将围绕事实表设计展开,从基础概念、设计原则、设计方法到分类应用,结合实际案例,帮助大家系统掌握事实表设计的核心技术,为构建高效的数据仓库奠定基础。 二、事实表的基础 2.1 事实表的定义 事实表是数据仓库维度建模
维度设计
2025-05-19
35
0
0
27.5℃
数仓理论
一、维度设计基本概念 1.1 维度与事实 在维度建模中有两个非常重要的概念:维度和事实。与业务过程相关的度量称为事实,维度则是事实的环境描述。 例如在电商场景中,商品维度可包含品牌、类别、款式等维度属性,
数据仓库建模方法
2025-04-15
104
0
0
34.4℃
数仓理论
数据仓库主要的建模方法是:维度建模和实体关系建模(ER建模)。其他还有ER模型的衍生模型:Data Vault 模型和Anchor 模型,但很少使用。 维度建模 概念描述: 维度建模由 Ralph Kimball 在《数据仓库工具箱》一书中提出的建模方法,其核心思想是将数据组织成事实表和维度表。 事
上一页
下一页
1
2
3
弹