11.4 迈向通用人工智能
智能体 AI 被广泛认为是通往 通用人工智能(AGI) 的必经之路。从简单的聊天机器人到能够自主感知、规划和行动的智能体,人类正处在 AI 进化的关键拐点。
本节展望未来的技术趋势,探讨 AGI 的分级标准及可能的演进路径。
11.4.1 AGI 的定义与分级
一种常见做法是用“能力分级”来描述从对话系统到通用智能的演进路径。本节用“五级路线图”的形式给出一个可讨论的框架,帮助你定位不同系统的能力边界。
11.4.2 AGI 五级路线图
Level 1: 聊天机器人
具有对话能力的 AI。
代表:典型对话系统。
现状:已实现。
Level 2: 推理者
具备人类水平的问题解决能力,能够处理复杂的逻辑推理。
代表:更强的推理型系统。
现状:逐步成熟,但能力边界仍与场景强相关。
Level 3: 智能体
能够代表用户采取行动,长时间自主运行。
能力:不仅能"说",还能"做";不仅能回答问题,还能 完成工作。
现状:加速落地 / 企业采用期(本书探讨的核心)。
Level 4: 创新者
能够协助发明创造,发现新知识。
能力:阅读所有生物学论文,提出新的蛋白质折叠假设。
现状:尚未实现。
Level 5: 组织
能够完成整个组织的运转工作。
能力:自主运营一家公司,无需人类干预。
现状:科幻范畴。
智能体 AI 正是连接 Level 2 到 Level 4 的关键桥梁。
11.4.3 未来趋势一:端侧智能体
目前的智能体大多运行在云端,但这面临隐私泄漏、网络延迟和成本高昂的问题。未来的趋势是 AI 的 小型化和本地化。
小语言模型
一类趋势是更小、更便宜、更易部署的模型在快速进步,逐步覆盖一部分端侧场景。
OS 级别的集成
端侧系统级集成通常具备三个特点:
能读取屏幕内容(屏幕感知)。
能跨应用操作(应用意图)。
尽可能在本地完成敏感数据处理。
未来,"每个人的手机里都有一个贾维斯" 将成为现实。
11.4.4 未来趋势二:具身智能
智能体终将通过机器人拥有物理身体。
Robot as Agent: 特斯拉 Optimus, Figure 01 等人形机器人正在将 视觉语言模型 (LLM/VLM) 作为大脑。
多模态闭环: 传统的机器人控制依赖硬编码的规则。具身智能体 实现了:
感知:看到杯子在桌边(Vision)。
推理:杯子快掉了,如果不接住会碎(Reasoning/World Model)。
规划:我应该伸出右手,以特定速度移动(Planning)。
行动:发送电机控制信号(Action)。
挑战: 现实世界的物理容错率几乎为零。代码写错了可以重跑,机器人摔倒了硬件就坏了。Sim-to-Real(仿真到现实)的迁移技术是关键。
11.4.5 未来趋势三:大模型即操作系统
一种常见的类比是把“大模型 + 工具 + 规则 + 调度”视为某种“软件操作系统”的雏形。
如果将 LLM 类比为 CPU:
上下文窗口 = RAM:上下文窗口就是内存,存放当前正在处理的数据。
RAG / Vector DB = Disk:外部存储就是硬盘,存放长期记忆。
Tools / APIs = IO Devices:能够连接联网、外设。
Agent Controller = Kernel:负责进程调度、资源分配、权限管理。
在未来,只要你依然在使用计算机,你其实就是在与一个智能体交互。 传统的图形界面(GUI)可能会逐渐退化为辅助,自然语言界面(LUI) 将成为人机交互的主流。不再需要学习如何点击菜单,而是学习如何向计算机下达清晰的指令。
11.4.6 未来趋势四:开放标准与行业协作
行业协作与开放标准也是重要趋势:当工具连接、权限边界、上下文传递逐步标准化后,智能体更容易跨产品与组织复用。
核心标准方向
常见的标准化方向包括:
工具描述与调用
让不同系统用一致方式描述工具与参数
权限与审计
明确“谁能调用什么”,并可追溯
上下文传递
在协作链路中稳定地传递关键上下文
轨迹与可观测性事件
支持跨系统回放、评估与排障
下一节: 本章小结
Last updated
