欢迎👏🏻!!

数仓模型验证标准流程


作为数据仓库工程师,模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控,确保表的数据质量、性能、合规性完全符合设计与业务要求,以下是分阶段的详细验证步骤。 一、表结构与元数据规范性验证 基础中的基础,表结构不符合规范,后续数据验证均为无效工作,核心要求是与设计文档 100% 匹配,符

异常数据与边界场景验证


核心目标:提前发现潜在 bug,确保表在极端场景下稳定运行,规避上线后线上故障。 异常值检测与校验 数值型异常值:金额、数量、时长等字段无负数、无超出合理阈值的异常值(如年龄 > 150)。 示例 SQL:select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字

java19字符串拼接

java 

一、Java 19 中字符串拼接的核心方式 Java 19 本身并未对字符串拼接的核心机制做颠覆性改动,但结合 JDK 长期演进的优化(如 StringConcatFactory、invokedynamic 等),以下是主流且高效的拼接方式,按「场景适配性」和「性能」排序: 1. 基础拼接:

Flink DataStream读取Kafka写入Paimon


这是一个flink读取kafka数据写入paimon的java api例子。paimon表使用hive metastore管理,写入后可以基于hive进行统计分析。 下面介绍一下实时数仓中数据采集的完整过程,从业务系统到数据湖需要经过binlog采集、Kafka实时生产与消费、flink实时处理、p

监控指定kafka connector状态

kafka 

监控指定kafka connector的状态是否正常。 1、监控脚本 import requests import sys import time print("传入的参数列表:", sys.argv[1:]) connector_name = sys.argv[1] connect_url

Spark SQL即席查询-ThriftServer


Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务,最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务,它允许各种客户端(如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等)

spark3.3 on hive模式配置


Spark on Hive 是让 Spark 作为计算引擎,复用 Hive 的元数据(Metastore) 和数据存储(HDFS) 的一种部署 / 使用模式,替代 Hive 原生的 MR/Tez 引擎,大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下: Spark 不重新

Halo使用Umami进行网站分析

halo 

Umami 是一个开源的、注重隐私的网站分析工具,旨在作为 Google Analytics 等服务的轻量级替代品。它不追踪用户身份信息,仅收集匿名数据以保护访问者隐私。 Umami 是什么 定义: 一个开源、自托管的网站分析平台。

使用百度统计进行Halo站点访问分析

halo 

下面使用百度统计分析 Halo 博客的详细配置的步骤,以获取访问 IP、UV、PV 等数据。 第一步:注册并登录百度统计账户