数据猫

从 LLM 到 Agent Skill 的 AI 核心概念

基础知识

在 AI 技术日新月异的今天，LLM、Token、Context、Prompt、MCP、Agent 等名词层出不穷。你是否真的理解这些概念？本文将从底层的工程视角出发，为你层层拆解 AI 的底层架构。一、大模型（LLM）：一场“文字接龙”游戏 LLM (Large Language Model)

Flink Table API 实战：Kafka 实时写入 Paimon 数据湖（基于 Hive Metastore 元数据管理）

flin基础操作

在湖仓一体的大数据架构趋势下，Paimon（原 Flink Table Store）凭借流批一体的特性成为数据湖建设的优选方案，而Flink作为新一代流批一体计算引擎，能高效实现实时数据的接入与处理，Hive Metastore则为跨引擎的元数据管理提供了标准化能力。本文将详细讲解如何通过 Flin

数仓模型验证标准流程

数据质量

作为数据仓库工程师，模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控，确保表的数据质量、性能、合规性完全符合设计与业务要求，以下是分阶段的详细验证步骤。一、表结构与元数据规范性验证基础中的基础，表结构不符合规范，后续数据验证均为无效工作，核心要求是与设计文档 100% 匹配，符

异常数据与边界场景验证

数据质量

核心目标：提前发现潜在 bug，确保表在极端场景下稳定运行，规避上线后线上故障。异常值检测与校验数值型异常值：金额、数量、时长等字段无负数、无超出合理阈值的异常值（如年龄 > 150）。示例 SQL：select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字

java19字符串拼接

java

一、Java 19 中字符串拼接的核心方式 Java 19 本身并未对字符串拼接的核心机制做颠覆性改动，但结合 JDK 长期演进的优化（如 StringConcatFactory、invokedynamic 等），以下是主流且高效的拼接方式，按「场景适配性」和「性能」排序： 1. 基础拼接：

Flink DataStream读取Kafka写入Paimon（使用Hive Metastore）

flin基础操作

在湖仓一体的实时数仓架构中，Paimon 凭借其流批一体、高吞吐、低延迟的存储特性，成为了数据湖建设的核心存储引擎；而Flink 作为主流的实时计算框架，与 Kafka、Paimon 的生态融合性极佳，是实现实时数据采集、处理、入湖的最优组合之一。本文将详细讲解基于 Flink DataStream

监控指定kafka connector状态

kafka

监控指定kafka connector的状态是否正常。 1、监控脚本 import requests import sys import time print("传入的参数列表：", sys.argv[1:]) connector_name = sys.argv[1] connect_url

superset配置spark sql thriftserver连接

superset

Spark SQL即席查询-ThriftServer

spark安装部署

Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务，最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务，它允许各种客户端（如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等）

spark3.3 on hive模式配置

spark安装部署

Spark on Hive 是让 Spark 作为计算引擎，复用 Hive 的元数据（Metastore）和数据存储（HDFS）的一种部署 / 使用模式，替代 Hive 原生的 MR/Tez 引擎，大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下： Spark 不重新