数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
1
初识数据仓库
2
数据仓库建模方法概述(维度建模、ER建模)
3
dolphinscheduler standalone安装部署
4
指标建设规范
5
使用python安装superset5
登录
已删除用户
该用户已被删除。
累计撰写
89
篇文章
累计创建
61
个分类
累计创建
138
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
hive
hive基础操作
hive性能优化
hive安装部署
superset
metabase
kafka
debezium
spark
spark安装部署
spark性能优化
spark基础操作
flink
flink安装部署
flink性能优化
flin基础操作
hadoop
hadoop安装部署
hadoop性能优化
hadoop基础操作
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
git
docker
maven
vscode
nginx
confluence
dbt
编码
flask
python
scrapy
操作系统
chrome
邮箱
shell
jdk
ubuntu
目录
各用户最长的连续登录天数-可间断
2025-11-09
9
0
0
24.9℃
MST
一、题目 现有各用户的登录记录表zbj_login_events如下,表中每行数据表达的信息是一个用户何时登录了平台。 现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续4天登录。 二、思路 这是
处理缺失值
2025-11-09
17
0
0
25.7℃
MST
一、题目 现有用户账户表,包含日期、用户id、用户余额,其中用户余额发生了缺失,需要进行补全。补全规则:如果余额为空则取之前最近不为空值进行填补。如果截止到最早日期都为空则补0; 二、思路 题目要求使用当天之前的余额进行补全,需要明确一点不是取前面一天而是取前面最近的不为空的余额。所以首先需要知道前
查询每个产品每年总销售额
2025-11-09
11
0
0
25.1℃
MST
一、题目 已知有表如下,记录了每个产品id、产品名称、产品销售开始日期、产品销售结束日期以及产品日均销售金额,请计算出每个产品每年的销售金额。 二、思路 要计算每个产品每年的销售金额,需要得到每年的销售明细,观察数据可以发现有销售开始和结束日期,可以借此得到每个产品每天的销售额,lateral vi
奖金瓜分问题
2025-11-09
16
0
0
25.6℃
MST
一、题目 在活动大促中,有玩游戏瓜分奖金环节。现有奖金池为 10000元,代表奖金池中的初始额度。用户的分数信息如下表。表中的数据代表每一个用户和其对应的得分,user_id 和 score 都不会有重复值。瓜分奖金的规则如下:按照 score 从高到低依次瓜分,每个人都能分走当前奖金池里面剩余奖金
hive3.1.3安装配置指南
2025-11-07
73
0
0
31.3℃
hive安装部署
环境准备 1. 前置条件 Hadoop集群:Hadoop 3.2.4(已正常启动) Java:JDK 8 数据库:MySQL(用于存储元数据) 2. 下载Hive wget https://archive.apache.org/dist/hive/hive-3.1.3/ap
Hadoop 3.2.4 伪分布式安装指南
2025-11-06
38
0
0
27.8℃
hadoop安装部署
环境准备 1. 系统要求 当前环境和版本: ubuntu24 hadoop-3.2.4 2. 安装必要的软件包:jdk和系统依赖 jdk可以从oracle官网下载,也可以使用linux安装openjdk,
连续登陆超过N天的用户
2025-11-05
16
0
0
25.6℃
MST
一、题目 现有用户登录日志表 user_login_log,包含用户ID(user_id),登录日期(login_date)。数据已经按照用户日期去重,请查出连续登录超过4天的用户ID 样例数据
spark内存模型
2025-11-04
25
0
0
26.5℃
spark性能优化
exector内存模型: spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用
flink barrier机制
2025-11-04
2
0
0
24.2℃
flink
好的,Flink 的 Barrier(屏障) 是其**容错机制的核心**,特别是实现 分布式一致性快照 的基石。理解 Barrier 是理解 Flink 如何保证“精确一次”语义的关键。 --- ### 一、Barrier 是什么? 简单比喻: 想象一个游乐场的过山车,管理人员想在某一精确时刻为所有
scrapy常用方法
2025-09-11
22
0
0
26.2℃
scrapy
常用方法 1. 爬虫方法
上一页
下一页
1
2
3
4
5
6
7
8
9
弹