数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
1
初识数据仓库
2
数据仓库建模方法概述(维度建模、ER建模)
3
dolphinscheduler standalone安装部署
4
指标建设规范
5
使用python安装superset5
登录
已删除用户
该用户已被删除。
累计撰写
88
篇文章
累计创建
61
个分类
累计创建
137
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
目录
处理缺失值
2025-11-09
17
0
0
25.7℃
MST
一、题目 现有用户账户表,包含日期、用户id、用户余额,其中用户余额发生了缺失,需要进行补全。补全规则:如果余额为空则取之前最近不为空值进行填补。如果截止到最早日期都为空则补0; 二、思路 题目要求使用当天之前的余额进行补全,需要明确一点不是取前面一天而是取前面最近的不为空的余额。所以首先需要知道前
查询每个产品每年总销售额
2025-11-09
11
0
0
25.1℃
MST
一、题目 已知有表如下,记录了每个产品id、产品名称、产品销售开始日期、产品销售结束日期以及产品日均销售金额,请计算出每个产品每年的销售金额。 二、思路 要计算每个产品每年的销售金额,需要得到每年的销售明细,观察数据可以发现有销售开始和结束日期,可以借此得到每个产品每天的销售额,lateral vi
奖金瓜分问题
2025-11-09
16
0
0
25.6℃
MST
一、题目 在活动大促中,有玩游戏瓜分奖金环节。现有奖金池为 10000元,代表奖金池中的初始额度。用户的分数信息如下表。表中的数据代表每一个用户和其对应的得分,user_id 和 score 都不会有重复值。瓜分奖金的规则如下:按照 score 从高到低依次瓜分,每个人都能分走当前奖金池里面剩余奖金
hive3.1.3安装配置指南
2025-11-07
73
0
0
31.3℃
hive安装部署
环境准备 1. 前置条件 Hadoop集群:Hadoop 3.2.4(已正常启动) Java:JDK 8 数据库:MySQL(用于存储元数据) 2. 下载Hive wget https://archive.apache.org/dist/hive/hive-3.1.3/ap
Hadoop 3.2.4 伪分布式安装指南
2025-11-06
38
0
0
27.8℃
hadoop安装部署
环境准备 1. 系统要求 当前环境和版本: ubuntu24 hadoop-3.2.4 2. 安装必要的软件包:jdk和系统依赖 jdk可以从oracle官网下载,也可以使用linux安装openjdk,
连续登陆超过N天的用户
2025-11-05
16
0
0
25.6℃
MST
一、题目 现有用户登录日志表 user_login_log,包含用户ID(user_id),登录日期(login_date)。数据已经按照用户日期去重,请查出连续登录超过4天的用户ID 样例数据
spark内存模型
2025-11-04
25
0
0
26.5℃
spark性能优化
exector内存模型: spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用
flink barrier机制
2025-11-04
2
0
0
24.2℃
flink
好的,Flink 的 Barrier(屏障) 是其**容错机制的核心**,特别是实现 分布式一致性快照 的基石。理解 Barrier 是理解 Flink 如何保证“精确一次”语义的关键。 --- ### 一、Barrier 是什么? 简单比喻: 想象一个游乐场的过山车,管理人员想在某一精确时刻为所有
scrapy常用方法
2025-09-11
22
0
0
26.2℃
scrapy
常用方法 1. 爬虫方法
指标系统
2025-08-25
25
0
0
26.5℃
指标系统
1、指标系统介绍 指标系统是一套围绕企业业务目标,对关键数据指标进行标准化定义、自动化计算、可视化展示及动态管理的数字化工具。通过整合分散的业务数据,它可以将抽象的业务场景转化为可量化的指标体系,帮助企业实时掌握运营状态、快速定位问题并支撑决策优化,是连接业务与数据的核心桥梁。 背景 下面看看指标系
上一页
下一页
1
2
3
4
5
6
7
8
9
弹