数据猫

数仓模型验证标准流程

数据质量

作为数据仓库工程师，模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控，确保表的数据质量、性能、合规性完全符合设计与业务要求，以下是分阶段的详细验证步骤。一、表结构与元数据规范性验证基础中的基础，表结构不符合规范，后续数据验证均为无效工作，核心要求是与设计文档 100% 匹配，符

异常数据与边界场景验证

数据质量

核心目标：提前发现潜在 bug，确保表在极端场景下稳定运行，规避上线后线上故障。异常值检测与校验数值型异常值：金额、数量、时长等字段无负数、无超出合理阈值的异常值（如年龄 > 150）。示例 SQL：select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字

java19字符串拼接

java

一、Java 19 中字符串拼接的核心方式 Java 19 本身并未对字符串拼接的核心机制做颠覆性改动，但结合 JDK 长期演进的优化（如 StringConcatFactory、invokedynamic 等），以下是主流且高效的拼接方式，按「场景适配性」和「性能」排序： 1. 基础拼接：

Flink DataStream读取Kafka写入Paimon（使用Hive Metastore）

flin基础操作

在湖仓一体的实时数仓架构中，Paimon 凭借其流批一体、高吞吐、低延迟的存储特性，成为了数据湖建设的核心存储引擎；而Flink 作为主流的实时计算框架，与 Kafka、Paimon 的生态融合性极佳，是实现实时数据采集、处理、入湖的最优组合之一。本文将详细讲解基于 Flink DataStream

监控指定kafka connector状态

kafka

监控指定kafka connector的状态是否正常。 1、监控脚本 import requests import sys import time print("传入的参数列表：", sys.argv[1:]) connector_name = sys.argv[1] connect_url

superset配置spark sql thriftserver连接

superset

Spark SQL即席查询-ThriftServer

spark安装部署

Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务，最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务，它允许各种客户端（如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等）