数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
debezium
kafka
metabase
superset
hive
hive基础操作
hive性能优化
hive安装部署
spark
spark基础操作
spark性能优化
spark安装部署
flink
flin基础操作
flink性能优化
flink安装部署
hadoop
hadoop基础操作
hadoop性能优化
hadoop安装部署
doris
doris基础操作
doris安装配置
dolphin
datax
AI
基础知识
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
excel
微信
halo
maven
docker
git
code-server
confluence
nginx
dbt
jdk
编码
java
flask
python
scrapy
其他
mac
杂项
1panel
shell
邮箱
chrome
ubuntu
关于我
1
dolphinscheduler3.2.2 standalone安装部署
2
初识数据仓库
3
数据仓库建模方法概述(维度建模、ER建模)
4
指标建设规范
5
使用python安装superset5
登录
MaoMao
累计撰写
123
篇文章
累计创建
70
个分类
累计创建
216
个标签
导航
数据仓库
数仓学习概览
数仓理论
调度和报警
指标系统
数据应用
数据质量
数据治理
数据安全
元数据血缘
数据采集处理
MST
数仓实战
数据平台
debezium
kafka
metabase
superset
hive
hive基础操作
hive性能优化
hive安装部署
spark
spark基础操作
spark性能优化
spark安装部署
flink
flin基础操作
flink性能优化
flink安装部署
hadoop
hadoop基础操作
hadoop性能优化
hadoop安装部署
doris
doris基础操作
doris安装配置
dolphin
datax
AI
基础知识
数据库
mysql
mysql基础操作
mysql安装部署
工具使用
excel
微信
halo
maven
docker
git
code-server
confluence
nginx
dbt
jdk
编码
java
flask
python
scrapy
其他
mac
杂项
1panel
shell
邮箱
chrome
ubuntu
关于我
目录
分类
数据平台
Flink时间与水印全解析:彻底搞定乱序数据流
2026-03-18
11
0
0
25.1℃
flin基础操作
在实时计算领域,Flink凭借精准高效的时间处理能力和强悍的乱序数据容错能力,成为主流的流处理引擎。而时间语义(Time)和水印(Watermark),正是Flink区别于其他流处理框架的核心精髓,也是新手入门Flink最容易困惑的知识点。 很多同学刚接触Flink时,总会遇到这些问题:为什么窗口计
flink自定义水印(watermark)生成器
2026-03-18
6
0
0
24.6℃
flin基础操作
实时业务场景很复杂,乱序延迟通常不固定(比如高峰期延迟30秒,低峰期延迟5秒),可以实现WatermarkGenerator接口,自定义水印生成逻辑,比如基于周期生成、基于数据条数生成,灵活适配特殊场景。 一、核心思路(适配动态乱序延迟场景) 针对 “高峰期延迟 30 秒、低峰期延迟 5 秒” 的动
Flink Table API 实战:Kafka 实时写入 Paimon 数据湖(基于 Hive Metastore 元数据管理)
2026-03-12
4
0
0
24.4℃
flin基础操作
在湖仓一体的大数据架构趋势下,Paimon(原 Flink Table Store)凭借流批一体的特性成为数据湖建设的优选方案,而Flink作为新一代流批一体计算引擎,能高效实现实时数据的接入与处理,Hive Metastore则为跨引擎的元数据管理提供了标准化能力。本文将详细讲解如何通过 Flin
Flink DataStream读取Kafka写入Paimon(使用Hive Metastore)
2026-03-02
63
0
1
32.3℃
flin基础操作
在湖仓一体的实时数仓架构中,Paimon 凭借其流批一体、高吞吐、低延迟的存储特性,成为了数据湖建设的核心存储引擎;而Flink 作为主流的实时计算框架,与 Kafka、Paimon 的生态融合性极佳,是实现实时数据采集、处理、入湖的最优组合之一。本文将详细讲解基于 Flink DataStream
监控指定kafka connector状态
2026-02-28
13
0
0
25.3℃
kafka
监控指定kafka connector的状态是否正常。 1、监控脚本 import requests import sys import time print("传入的参数列表:", sys.argv[1:]) connector_name = sys.argv[1] connect_url
superset配置spark sql thriftserver连接
2026-02-27
5
0
0
24.5℃
superset
Spark SQL即席查询-ThriftServer
2026-02-27
6
0
0
24.6℃
spark安装部署
Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务,最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务,它允许各种客户端(如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等)
spark3.3 on hive模式配置
2026-02-27
9
0
0
24.9℃
spark安装部署
Spark on Hive 是让 Spark 作为计算引擎,复用 Hive 的元数据(Metastore) 和数据存储(HDFS) 的一种部署 / 使用模式,替代 Hive 原生的 MR/Tez 引擎,大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下: Spark 不重新
dolphinscheduler3.3.2 standalone安装部署
2026-02-16
18
0
0
25.8℃
dolphin
一、环境准备 系统要求 JDK 1.8:需配置 JAVA_HOME 环境变量 。 MySQL 8:用于持久化元数据(避免默认 H2 数据库重启丢失数据),本文使用的mysql8。 DolphinScheduler:版本:3.3.2 系统:Ubuntu 24
dolphin提交flink job
2026-02-14
20
0
0
26.0℃
dolphin
🧩 前提条件 已安装并启动 Apache DolphinScheduler(建议 v3.0+) 已安装 Apache Flink(Standalone 或 YARN 模式均可)<
上一页
下一页
1
2
3
4
弹
通知
通知
本通知将在
null
秒后自动消失
我知道了