从 LLM 到 Agent Skill 的 AI 核心概念
- 2026-03-17
- 32
- 0
- 0
- 27.2℃
在 AI 技术日新月异的今天,LLM、Token、Context、Prompt、MCP、Agent 等名词层出不穷。你是否真的理解这些概念?本文将从底层的工程视角出发,为你层层拆解 AI 的底层架构。 一、 大模型(LLM):一场“文字接龙”游戏 LLM (Large Language Model)
Flink Table API 实战:Kafka 实时写入 Paimon 数据湖(基于 Hive Metastore 元数据管理)
- 2026-03-12
- 22
- 0
- 1
- 28.2℃
在湖仓一体的大数据架构趋势下,Paimon(原 Flink Table Store)凭借流批一体的特性成为数据湖建设的优选方案,而Flink作为新一代流批一体计算引擎,能高效实现实时数据的接入与处理,Hive Metastore则为跨引擎的元数据管理提供了标准化能力。本文将详细讲解如何通过 Flin
数仓模型验证标准流程
- 2026-03-10
- 80
- 0
- 1
- 34.0℃
作为数据仓库工程师,模型开发完成后的验证核心是规范先行、全链路覆盖、业务闭环、持续监控,确保表的数据质量、性能、合规性完全符合设计与业务要求,以下是分阶段的详细验证步骤。 一、表结构与元数据规范性验证 基础中的基础,表结构不符合规范,后续数据验证均为无效工作,核心要求是与设计文档 100% 匹配,符
异常数据与边界场景验证
- 2026-03-10
- 15
- 0
- 0
- 25.5℃
核心目标:提前发现潜在 bug,确保表在极端场景下稳定运行,规避上线后线上故障。 异常值检测与校验 数值型异常值:金额、数量、时长等字段无负数、无超出合理阈值的异常值(如年龄 > 150)。 示例 SQL:select * from 目标表 where 金额字段 < 0 or 数量字段 < 0; 字
java19字符串拼接
- 2026-03-02
- 18
- 0
- 0
- 25.8℃
一、Java 19 中字符串拼接的核心方式 Java 19 本身并未对字符串拼接的核心机制做颠覆性改动,但结合 JDK 长期演进的优化(如 StringConcatFactory、invokedynamic 等),以下是主流且高效的拼接方式,按「场景适配性」和「性能」排序: 1. 基础拼接:
Flink DataStream读取Kafka写入Paimon(使用Hive Metastore)
- 2026-03-02
- 110
- 0
- 2
- 39.0℃
在湖仓一体的实时数仓架构中,Paimon 凭借其流批一体、高吞吐、低延迟的存储特性,成为了数据湖建设的核心存储引擎;而Flink 作为主流的实时计算框架,与 Kafka、Paimon 的生态融合性极佳,是实现实时数据采集、处理、入湖的最优组合之一。本文将详细讲解基于 Flink DataStream
监控指定kafka connector状态
- 2026-02-28
- 22
- 0
- 0
- 26.2℃
监控指定kafka connector的状态是否正常。 1、监控脚本 import requests
import sys
import time
print("传入的参数列表:", sys.argv[1:])
connector_name = sys.argv[1]
connect_url
Spark SQL即席查询-ThriftServer
- 2026-02-27
- 36
- 0
- 0
- 27.6℃
Spark 3.3.2 中启动一个可以让外部服务连接并进行即席查询的 Spark SQL 服务,最标准的方法是启动 ThriftServer。ThriftServer 充当一个 JDBC/ODBC 服务,它允许各种客户端(如 BI 工具、Python脚本使用 pyspark 连接、Java 应用等)
spark3.3 on hive模式配置
- 2026-02-27
- 30
- 0
- 0
- 27.0℃
Spark on Hive 是让 Spark 作为计算引擎,复用 Hive 的元数据(Metastore) 和数据存储(HDFS) 的一种部署 / 使用模式,替代 Hive 原生的 MR/Tez 引擎,大幅提升 Hive SQL 的执行效率。 Spark on Hive 模式下: Spark 不重新