1.3 核心组件：大脑、感知、行动与记忆

为了构建一个功能完备的智能体，需要像做外科手术一样，将其拆解为几个相互协作的模块。有工程实践文章提出过一个经典的架构拆解图，用于说明“规划、记忆、工具、反思”等模块如何组合。

本节在此基础上，结合最新的工程实践，提出智能体的现代架构。一个现代 AI 智能体主要由四个部分组成：

大脑 (Brain)：负责规划与决策的核心。
感知 (Perception)：信息的输入与处理。
行动 (Action/Tools)：与世界交互的接口。
记忆 (Memory)：经验和知识的存储。

图 1-3：智能体核心组件架构

1.3.1 大脑：核心控制器

大脑由大语言模型（LLM）扮演。它是整个系统的 CPU，所有的逻辑推理、指令遵循和决策都在这里发生。

大脑的效能主要取决于两个维度：静态的角色设定 决定了它的思维底色，动态的推理能力 决定了它的智力上限。

静态维度：角色设定

角色设定可以为一个智能体提供背景信息和行为准则。

身份锚定：“你是一个拥有 10 年经验的资深 Python 架构师，性格严谨，甚至有点强迫症。” 这种设定不仅影响说话语气，甚至能提高代码质量。
少样本示例（Few-shot Examples）：大脑通过 上下文学习（In-context Learning） 学习。提供 3-5 个“完美互动的样本”，能让大脑迅速领悟当前的某种特定任务模式。

动态维度：推理能力

推理能力是智能体区别于传统软件的关键。主要包括：

任务拆解（Decomposition）：大脑需要将用户的模糊指令（“做个贪吃蛇游戏”）拆解为原子任务列表（UI设计、逻辑实现、输入监听）。
规划（Planning）：大脑需要预判步骤的依赖关系。是先查天气还是先订酒店？
反思（Reflection）：这是一个高级功能。大脑会在输出结果前进行自我审视：“我生成的这段代码真的符合 PEP8 规范吗？是不是太复杂了？”

选型提示：
高能力模型：适合充当"主脑"，处理复杂的逻辑、规划与反思。
轻量模型：适合充当"小脑"或"脊髓"，处理分类、摘要、路由等轻任务，成本更低。

1.3.2 感知：智能体的感官

感知模块负责将环境中的 非结构化信息转化为大脑可以理解的结构化信号（通常是文本或嵌入）。

基础感知：文本输入

这是最基础的。包括用户的指令、API 返回的 JSON 数据、错误日志。

高级感知：多模态

现代智能体正在长出眼睛和耳朵。

视觉 (Vision)：利用具备视觉能力的多模态模型，智能体可以"看"懂网页内容与界面元素，甚至从截图中定位按钮与表单。
听觉 (Audio)：通过语音识别模型，智能体可以接入电话或会议系统，实时转录语音并做出回应。

深度感知：环境状态

对于编程智能体，感知不仅仅是看，还包括对环境的深度读取：

读取 IDE 当前打开的文件路径。
通过 git diff 感知代码变更。
通过 LSP (Language Server Protocol) 感知代码中的语法错误红线。

1.3.3 行动：手与工具

没有工具的智能体只是一个只会聊天的缸中之脑。行动空间（Action Space） 定义了智能体的能力边界。

核心机制：函数调用

这是智能体与世界交互的桥梁。

定义：开发者通过 JSON Schema 告诉 LLM 有哪些工具可用（如 google_search, calculator）。
决策：LLM 决定调用哪个工具，并填充参数（如 {"tool": "calculator", "args": {"expression": "50 * 12"}}）。
执行：智能体框架拦截这个决策，在本地执行函数，获得结果。
反馈：将结果（"600"）填回给 LLM。

能力边界：常见工具集

信息检索：Google Search, Bing Search, 向量数据库检索。
代码解释器：Python REPL（Read-Eval-Print Loop）。这是最强大的工具，智能体可以写一段 Python 代码来画图、处理 Excel 或解复杂方程。
文件操作：Read/Write File, List Directory。
系统操作：Shell Command, Git Operations。

安全警示：给智能体配备 execute_shell 这样的工具时要遵循 最小权限原则。务必在 Docker 容器或沙箱环境中运行，防止智能体误删系统文件 (sudo rm -rf /)。

1.3.4 记忆：经验的载体

LLM 本身是无状态的，上下文窗口 (Context Window) 是昂贵且有限的。记忆模块 旨在解决“健忘”问题。

感觉记忆

即原始的输入流。所有的用户提示词、系统消息最开始都存储在这里。

短期记忆

映射为 LLM 的 上下文窗口。

它存放当前正在进行的对话历史。
它就像计算机的 RAM，存取速度快，但断电（会话结束）即失。
受限：即便一些模型支持更长的上下文窗口，塞入太多无关信息仍会降低推理精度（中间丢失 Lost in the Middle 现象）。

长期记忆

长期记忆通常可以映射为 向量数据库 (Vector DB) 或外部存储。

它就像计算机的硬盘。
检索增强生成 (RAG)：当记忆太多放不下 上下文 时，智能体会先在向量库中检索与当前问题最相关的几条片段，只把这几条“回忆”加载到短期记忆中。
经验积累：智能体可以将成功的案例总结成经验存入长期记忆，下次遇到类似问题时，表现会更好。

下一节: 1.4 智能体的认知层级

Previous1.2 智能体理论基础 Next1.4 智能体的认知层级

Last updated 3 days ago

hashtag1.3.1 大脑：核心控制器

hashtag静态维度：角色设定

hashtag动态维度：推理能力

hashtag1.3.2 感知：智能体的感官

hashtag基础感知：文本输入

hashtag高级感知：多模态

hashtag深度感知：环境状态

hashtag1.3.3 行动：手与工具

hashtag核心机制：函数调用

hashtag能力边界：常见工具集

hashtag1.3.4 记忆：经验的载体

hashtag感觉记忆

hashtag短期记忆

hashtag长期记忆