1.2 智能体理论基础

在动手写代码之前，需要构建坚实的理论地基。为什么给大模型加上“有状态”和“循环”就能变成智能体？其背后的数学和逻辑基础是什么？

本节将从人工智能宏观理论出发，推导出智能体的核心运行机制，并解释这些枯燥的理论是如何映射到现代智能体架构设计中的。

1.2.1 智能体的第一性原理：理性与效用

Stuart Russell 和 Peter Norvig 在 1995 年出版的经典教材《人工智能：一种现代方法》(AIMA) 中定义了 AI 的核心目标：构建 理性智能体 (Rational Agent)。

什么是“理性”？

在 AI 理论中，“理性”并不等同于人类的情感理智或全知全能，而是有着严格的数学定义。一个理性智能体是指：“对于每一个可能的感知序列，根据已知的感知序列和内置的知识，选择能使其预期效用 (Expected Utility) 最大化的行动。”

这可以用一个简化的决策公式来表示：

$a^* = \arg\max_{a \in A} \mathbb{E}[U(s') | s, a]$

其中：

$a^*$ 是最优行动。
$s$ 是当前状态，$a$ 是候选行动。
$s'$ 是执行行动后可能到达的新状态。
$U(s')$ 是新状态的 效用值 (Utility)。

从强化学习到大模型智能体

在传统的强化学习 (RL) 中，需要显式地定义 奖励函数 (Reward Function) 来计算效用（例如：赢了得 1 分，输了扣 1 分）。

而在 LLM 智能体 中，这个“效用函数”发生了有趣的演变：

隐式效用：经过 RLHF（基于人类反馈的强化学习）训练的模型，其内部已经内化了符合人类价值观的效用函数。
指令即目标：系统提示词“你是一个帮助用户写代码的助手”定义了 当前任务的效用边界。智能体生成的行动如果符合该人设和目标，就被视为“高效用”。

设计启示：设计智能体的提示词时，本质上是在定义 $U(s)$。如果你的提示词模糊不清，智能体就无法计算出哪个行动 $a$ 能带来最大效用，从而导致行为混乱。

1.2.2 核心循环：从 MDP 到 POMDP

智能体与其环境的交互，在数学上通常被建模为 马尔可夫决策过程 (MDP)。但在真实世界应用中，它更准确地是一个 部分可观测马尔可夫决策过程 (POMDP)。

为什么是“部分可观测”？

MDP (上帝视角)：智能体能看到世界的全部状态。例如下围棋，棋盘上的一切都是公开透明的。
POMDP (真实世界)：智能体只能看到世界的 一部分。
- 例子：一个编码智能体只能读取它打开的那几个文件，看不到其它文件，也看不到运行时的内存状态。它只能通过 ls 或 read_file 等工具获得局部观测 (Observation)。

“记忆”的理论本质：状态估算

在 POMDP 中，仅凭当前的观测 $O_t$ 是无法决策的。根据观测，智能体可以构建和维护对世界的猜测（即“我认为现在的世界是什么样的”），即 信念状态 (Belief State)。

图 1-2：POMDP 中的信念状态更新循环 (Belief State Update Loop in POMDP)

$b_t = f(b_{t-1}, a_{t-1}, o_t)$

$b_t$：当前的信念状态。
$o_t$：最新的观测。

具体示例：假设一个编程智能体正在分析项目依赖：

$b_0$（初始信念）："我不知道这个项目用什么框架。"
$a_0$（行动）：执行 read_file("requirements.txt")
$o_1$（观测）：文件内容显示 flask==2.0.1, sqlalchemy>=1.4
$b_1$（更新后的信念）："这是一个使用 Flask 和 SQLAlchemy 的 Python Web 项目。"

这解释了为什么 上下文 (Context)在智能体系统中如此重要。上下文不仅仅是聊天记录，它是信念状态 $b_t$ 的文本化表示。

当智能体把“运行报错信息”加入上下文时，它就在更新它的信念状态（从“代码是完美的”更新为“代码第 5 行有 Bug”）。
记忆即状态：RAG 和长上下文窗口的本质，就是为了让智能体在部分可观测的世界中，尽可能构建出完整的状态全貌，从而把 POMDP 问题近似成简单的 MDP 问题来处理。

1.2.3 决策架构：从反应式到认知式

根据丹尼尔·卡尼曼的《思考，快与慢》，人类思维分为系统 1（快）和系统 2（慢）。智能体设计也经历了类似的进化。

反应式架构 (Reflex Agent) —— 系统 1

原理：感知 -> 行动。
公式：$Action = Policy(State)$
表现：你问一句，LLM 答一句。没有内部独白，没有思考过程。这是标准 LLM 的默认行为（预测下个 Token）。
局限：无法解决需要多步推理的复杂问题。

认知式/审慎架构 (Deliberative Agent) —— 系统 2

原理：感知 -> 构建模型 -> 规划/推理 -> 行动。
引入“思考时间”：在输出行动之前，先进行内部的计算。
思维链 (CoT) 的理论意义：思维链不仅仅是一种提示词技巧，它在理论上通过生成中间 Token，增加了模型用于计算当前问题的 测试时计算量 (Test-Time Compute)。
- 它将 $P(y|x)$ 拆解为 $P(z|x) P(y|x, z)$，其中 $z$ 是中间推理步骤。
- 通过这种方式，非结构化的推理过程被显式化、结构化了。

1.2.4 环境建模：PEAS 框架的现代演绎

在设计智能体之前，必须先分析它所处的环境。PEAS (Performance, Environment, Actuators, Sensors) 是经典的分析框架，在 LLM 时代依然适用且必要。

维度

定义

现代智能体设计考量

Performance

性能度量

也就是“目标函数”。不仅是提示词中的指令，还包括评估指标（如代码通过率、对话轮数、API 消耗成本）。没有量化指标，就无法优化智能体。

Environment

环境

决定了架构复杂度。 •完全/部分可观测：是否需要强记忆模块？ • 确定/随机：工具调用失败是否需要重试机制？ • 静态/动态：智能体思考时环境会变吗（如股票市场）？

Actuators

执行器

智能体的“手”。在 LLM 时代，这就是Tools / Function Calling。所有的输出（文本、JSON、API 请求）都是行动。

Sensors

传感器

智能体的“眼”。提示词的输入部分。除了用户文字，还可以是图像（Vision）、LSP 报错信息、网页 DOM 树等。

1.2.5 理论到设计的映射

最后，将上述理论概念与现代智能体的工程组件做一一映射，以此打通理论与实践的任督二脉。

经典 AI 理论概念

现代 LLM 智能体组件

说明

策略函数 Policy $\pi(a|s)$

LLM (Transformer)

给定上下文 $s$，预测下一个最优 Token (行动 $a$)。

信念状态 Belief State $b_t$

Context Window / Memory

维护当前对话历史、变量状态、环境观测的文本快照。

规划 Planning / Search

Chain-of-Thought (CoT)

通过生成自然语言的推理步骤，模拟搜索和规划过程。

感知 Perception $o_t$

提示词 (System + User)

将多模态信号（视觉、代码、日志）编码为 Token 序列。

行动 Action $a_t$

Function Calling

也就是工具调用。输出特定的 Token 序列来触发外部代码执行。

环境反馈 Reward $r_t$

Tool Outputs / Feedback

工具执行的结果、编译器报错、用户点赞/批评。

下一节: 1.3 核心组件：大脑、感知、行动与记忆

Previous1.1 从大模型到智能体 Next1.3 核心组件：大脑、感知、行动与记忆

Last updated 3 days ago

hashtag1.2.1 智能体的第一性原理：理性与效用

hashtag什么是“理性”？

hashtag从强化学习到大模型智能体

hashtag1.2.2 核心循环：从 MDP 到 POMDP

hashtag为什么是“部分可观测”？

hashtag“记忆”的理论本质：状态估算

hashtag1.2.3 决策架构：从反应式到认知式

hashtag反应式架构 (Reflex Agent) —— 系统 1

hashtag认知式/审慎架构 (Deliberative Agent) —— 系统 2

hashtag1.2.4 环境建模：PEAS 框架的现代演绎

hashtag1.2.5 理论到设计的映射