- 分类
- 数据平台
Flink时间与水印全解析:彻底搞定乱序数据流
- 2026-03-18
- 16
- 0
- 0
- 25.6℃
在实时计算领域,Flink凭借精准高效的时间处理能力和强悍的乱序数据容错能力,成为主流的流处理引擎。而时间语义(Time)和水印(Watermark),正是Flink区别于其他流处理框架的核心精髓,也是新手入门Flink最容易困惑的知识点。 很多同学刚接触Flink时,总会遇到这些问题:为什么窗口计
flink自定义水印(watermark)生成器
- 2026-03-18
- 10
- 0
- 0
- 25.0℃
实时业务场景很复杂,乱序延迟通常不固定(比如高峰期延迟30秒,低峰期延迟5秒),可以实现WatermarkGenerator接口,自定义水印生成逻辑,比如基于周期生成、基于数据条数生成,灵活适配特殊场景。 一、核心思路(适配动态乱序延迟场景) 针对 “高峰期延迟 30 秒、低峰期延迟 5 秒” 的动
Flink Table API 实战:Kafka 实时写入 Paimon 数据湖(基于 Hive Metastore 元数据管理)
- 2026-03-12
- 11
- 0
- 0
- 25.1℃
在湖仓一体的大数据架构趋势下,Paimon(原 Flink Table Store)凭借流批一体的特性成为数据湖建设的优选方案,而Flink作为新一代流批一体计算引擎,能高效实现实时数据的接入与处理,Hive Metastore则为跨引擎的元数据管理提供了标准化能力。本文将详细讲解如何通过 Flin
Flink DataStream读取Kafka写入Paimon(使用Hive Metastore)
- 2026-03-02
- 89
- 0
- 2
- 36.9℃
在湖仓一体的实时数仓架构中,Paimon 凭借其流批一体、高吞吐、低延迟的存储特性,成为了数据湖建设的核心存储引擎;而Flink 作为主流的实时计算框架,与 Kafka、Paimon 的生态融合性极佳,是实现实时数据采集、处理、入湖的最优组合之一。本文将详细讲解基于 Flink DataStream
监控指定kafka connector状态
- 2026-02-28
- 16
- 0
- 0
- 25.6℃
监控指定kafka connector的状态是否正常。 1、监控脚本 import requests
import sys
import time
print("传入的参数列表:", sys.argv[1:])
connector_name = sys.argv[1]
connect_url
Spark SQL即席查询-ThriftServer
- 2026-02-27
- 18
- 0
- 0
- 25.8℃
Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务,最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务,它允许各种客户端(如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等)
spark3.3 on hive模式配置
- 2026-02-27
- 19
- 0
- 0
- 25.9℃
Spark on Hive 是让 Spark 作为计算引擎,复用 Hive 的元数据(Metastore) 和数据存储(HDFS) 的一种部署 / 使用模式,替代 Hive 原生的 MR/Tez 引擎,大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下: Spark 不重新
dolphinscheduler3.3.2 standalone安装部署
- 2026-02-16
- 22
- 0
- 0
- 26.2℃
一、环境准备 系统要求 JDK 1.8:需配置 JAVA_HOME 环境变量 。 MySQL 8:用于持久化元数据(避免默认 H2 数据库重启丢失数据),本文使用的mysql8。 DolphinScheduler:版本:3.3.2 系统:Ubuntu 24
dolphin提交flink job
- 2026-02-14
- 37
- 0
- 0
- 27.7℃
🧩 前提条件 已安装并启动 Apache DolphinScheduler(建议 v3.0+) 已安装 Apache Flink(Standalone 或 YARN 模式均可)<