数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
debezium
kafka
metabase
superset
hive
hive基础操作
hive性能优化
hive安装部署
spark
spark基础操作
spark性能优化
spark安装部署
flink
flin基础操作
flink性能优化
flink安装部署
hadoop
hadoop基础操作
hadoop性能优化
hadoop安装部署
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
excel
微信
halo
maven
docker
git
code-server
confluence
nginx
dbt
jdk
编码
java
flask
python
scrapy
操作系统
mac
1panel
shell
邮箱
chrome
ubuntu
关于
1
初识数据仓库
2
dolphinscheduler3.2.2 standalone安装部署
3
数据仓库建模方法概述(维度建模、ER建模)
4
指标建设规范
5
使用python安装superset5
登录
MaoMao
累计撰写
116
篇文章
累计创建
67
个分类
累计创建
200
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
debezium
kafka
metabase
superset
hive
hive基础操作
hive性能优化
hive安装部署
spark
spark基础操作
spark性能优化
spark安装部署
flink
flin基础操作
flink性能优化
flink安装部署
hadoop
hadoop基础操作
hadoop性能优化
hadoop安装部署
doris
doris基础操作
doris安装配置
dolphin
datax
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
excel
微信
halo
maven
docker
git
code-server
confluence
nginx
dbt
jdk
编码
java
flask
python
scrapy
操作系统
mac
1panel
shell
邮箱
chrome
ubuntu
关于
目录
欢迎👏🏻!!
数据模型验证标准流程
2026-03-10
5
0
0
24.5℃
数据质量
作为数据仓库工程师,模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控,确保表的数据质量、性能、合规性完全符合设计与业务要求,以下是分阶段的详细验证步骤。 一、表结构与元数据规范性验证 基础中的基础,表结构不符合规范,后续数据验证均为无效工作,核心要求是与设计文档 100% 匹配,符
异常数据与边界场景验证
2026-03-10
2
0
0
24.2℃
数据质量
核心目标:提前发现潜在 bug,确保表在极端场景下稳定运行,规避上线后线上故障。 异常值检测与校验 数值型异常值:金额、数量、时长等字段无负数、无超出合理阈值的异常值(如年龄 > 150)。 示例 SQL:select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字
java19字符串拼接
2026-03-02
9
0
0
24.9℃
java
一、Java 19 中字符串拼接的核心方式 Java 19 本身并未对字符串拼接的核心机制做颠覆性改动,但结合 JDK 长期演进的优化(如 StringConcatFactory、invokedynamic 等),以下是主流且高效的拼接方式,按「场景适配性」和「性能」排序: 1. 基础拼接:
Flink DataStream读取Kafka写入Paimon
2026-03-02
26
0
0
26.6℃
flin基础操作
这是一个flink读取kafka数据写入paimon的java api例子。paimon表使用hive metastore管理,写入后可以基于hive进行统计分析。 下面介绍一下实时数仓中数据采集的完整过程,从业务系统到数据湖需要经过binlog采集、Kafka实时生产与消费、flink实时处理、p
监控指定kafka connector状态
2026-02-28
11
0
0
25.1℃
kafka
监控指定kafka connector的状态是否正常。 1、监控脚本 import requests import sys import time print("传入的参数列表:", sys.argv[1:]) connector_name = sys.argv[1] connect_url
superset配置spark sql thriftserver连接
2026-02-27
4
0
0
24.4℃
superset
Spark SQL即席查询-ThriftServer
2026-02-27
6
0
0
24.6℃
spark安装部署
Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务,最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务,它允许各种客户端(如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等)
spark3.3 on hive模式配置
2026-02-27
7
0
0
24.7℃
spark安装部署
Spark on Hive 是让 Spark 作为计算引擎,复用 Hive 的元数据(Metastore) 和数据存储(HDFS) 的一种部署 / 使用模式,替代 Hive 原生的 MR/Tez 引擎,大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下: Spark 不重新
Halo使用Umami进行网站分析
2026-02-26
10
0
0
25.0℃
halo
Umami 是一个开源的、注重隐私的网站分析工具,旨在作为 Google Analytics 等服务的轻量级替代品。它不追踪用户身份信息,仅收集匿名数据以保护访问者隐私。 Umami 是什么 定义: 一个开源、自托管的网站分析平台。
使用百度统计进行Halo站点访问分析
2026-02-26
10
0
0
25.0℃
halo
下面使用百度统计分析 Halo 博客的详细配置的步骤,以获取访问 IP、UV、PV 等数据。 第一步:注册并登录百度统计账户
上一页
下一页
1
2
3
4
5
6
7
…
11
弹
通知
通知
本通知将在
null
秒后自动消失
我知道了