数据猫

欢迎回来👏🏻！！

Flink时间与水印全解析：彻底搞定乱序数据流

flin基础操作

在实时计算领域，Flink凭借精准高效的时间处理能力和强悍的乱序数据容错能力，成为主流的流处理引擎。而时间语义（Time）和水印（Watermark），正是Flink区别于其他流处理框架的核心精髓，也是新手入门Flink最容易困惑的知识点。很多同学刚接触Flink时，总会遇到这些问题：为什么窗口计

flink自定义水印（watermark）生成器

flin基础操作

实时业务场景很复杂，乱序延迟通常不固定（比如高峰期延迟30秒，低峰期延迟5秒），可以实现WatermarkGenerator接口，自定义水印生成逻辑，比如基于周期生成、基于数据条数生成，灵活适配特殊场景。一、核心思路（适配动态乱序延迟场景）针对 “高峰期延迟 30 秒、低峰期延迟 5 秒” 的动

从 LLM 到 Agent Skill 的 AI 核心概念

基础知识

在 AI 技术日新月异的今天，LLM、Token、Context、Prompt、MCP、Agent 等名词层出不穷。你是否真的理解这些概念？本文将从底层的工程视角出发，为你层层拆解 AI 的底层架构。一、大模型（LLM）：一场“文字接龙”游戏 LLM (Large Language Model)

Flink Table API 实战：Kafka 实时写入 Paimon 数据湖（基于 Hive Metastore 元数据管理）

flin基础操作

在湖仓一体的大数据架构趋势下，Paimon（原 Flink Table Store）凭借流批一体的特性成为数据湖建设的优选方案，而Flink作为新一代流批一体计算引擎，能高效实现实时数据的接入与处理，Hive Metastore则为跨引擎的元数据管理提供了标准化能力。本文将详细讲解如何通过 Flin

数仓模型验证标准流程

数据质量

作为数据仓库工程师，模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控，确保表的数据质量、性能、合规性完全符合设计与业务要求，以下是分阶段的详细验证步骤。一、表结构与元数据规范性验证基础中的基础，表结构不符合规范，后续数据验证均为无效工作，核心要求是与设计文档 100% 匹配，符

异常数据与边界场景验证

数据质量

核心目标：提前发现潜在 bug，确保表在极端场景下稳定运行，规避上线后线上故障。异常值检测与校验数值型异常值：金额、数量、时长等字段无负数、无超出合理阈值的异常值（如年龄 > 150）。示例 SQL：select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字

java19字符串拼接

java

一、Java 19 中字符串拼接的核心方式 Java 19 本身并未对字符串拼接的核心机制做颠覆性改动，但结合 JDK 长期演进的优化（如 StringConcatFactory、invokedynamic 等），以下是主流且高效的拼接方式，按「场景适配性」和「性能」排序： 1. 基础拼接：

Flink DataStream读取Kafka写入Paimon（使用Hive Metastore）

flin基础操作

在湖仓一体的实时数仓架构中，Paimon 凭借其流批一体、高吞吐、低延迟的存储特性，成为了数据湖建设的核心存储引擎；而Flink 作为主流的实时计算框架，与 Kafka、Paimon 的生态融合性极佳，是实现实时数据采集、处理、入湖的最优组合之一。本文将详细讲解基于 Flink DataStream

监控指定kafka connector状态

kafka

监控指定kafka connector的状态是否正常。 1、监控脚本 import requests import sys import time print("传入的参数列表：", sys.argv[1:]) connector_name = sys.argv[1] connect_url

superset配置spark sql thriftserver连接

superset