在 AI 技术日新月异的今天,LLM、Token、Context、Prompt、MCP、Agent 等名词层出不穷。你是否真的理解这些概念?本文将从底层的工程视角出发,为你层层拆解 AI 的底层架构。

一、 大模型(LLM):一场“文字接龙”游戏

LLM (Large Language Model),即大语言模型,目前基本都基于 Google 在 2017 年提出的 Transformer 架构。

虽然听起来高大上,但 LLM 的生成原理其实非常“朴素”:它本质上是一个文字接龙游戏。模型根据输入预测下一个概率最高的词,吐出词后,再将该词抓回到输入序列末尾,继续预测下一个词,直到输出特殊的结束标识符。这就是为什么 AI 总是“一个词一个词”蹦出来的原因。

二、 Token:AI 处理信息的最小单元

大模型本质上是一个运行矩阵运算的数学函数,它并不直接认识文字,而是处理数字

  • Tokenizer(分词器): 充当“中间人”,负责编码(文字转数字)和解码(数字还原文字)。

  • 什么是 Token: 文字被拆分成的最小片段。Token 并不等同于词。平均而言,一个 Token 约等于 0.75 个英文单词,或 1.5 到 2 个汉字。

三、 Context:AI 的“临时记忆体”

大模型本身是没有持久记忆的。我们感觉它能“记住”对话,是因为后台程序会自动将对话历史连同新问题一起发给模型。

  • Context(上下文): 模型处理任务时接收到的所有信息总和(包括历史记录、Prompt、工具列表等)。

  • Context Window(上下文窗口): 模型能容纳的最大 Token 数量限制。

  • RAG 技术: 当资料(如长篇手册)超过窗口限制或为了节省成本时,通过 RAG 抽取相关片段发送给模型,而不是塞入整本书。

四、 Prompt:给 AI 的指令集

Prompt(提示词) 是给模型的具体问题或指令。为了更精准地控制 AI,我们通常将其分为两类:

  1. System Prompt(系统提示词): 开发者在后台配置,用于设定 AI 的人设做事规则(用户不可见)。

  2. User Prompt(用户提示词): 用户在对话框直接输入的具体任务。

五、 Tool 与 MCP:打破 AI 的感知壁垒

大模型无法直接感知现实世界(如查天气),因为它只是在做概率预测。这就需要 Tool(工具/函数)

  • 运作机制: 平台(代码层)作为传话筒,将工具列表发给模型,模型生成调用指令,平台执行后再将结果返还给模型进行总结。

  • MCP (Model Context Protocol): 这是一个统一的接入规范。由于各平台接入标准不同,MCP 就像是 AI 界的 “Type-C”,让开发者只需写一次代码即可在所有支持该协议的平台上运行。

六、 Agent 与 Agent Skill:从工具调用到自主规划

当大模型具备了自主规划、自主调用工具并持续运作直至完成任务的能力时,它就进化为了 Agent(智能体)

然而,Agent 有时无法理解用户的私人习惯。这时就需要 Agent Skill

  • 定义: 一份写给 Agent 看的说明文档(通常为 Markdown 格式)。

  • 结构: 包含元数据层(名称、描述)和指令层(目标、步骤、判断规则、输出格式等)。

  • 作用: 它让 Agent 能严格按照特定的流程和格式完成任务,避免“说废话”,满足个性化需求。