11.4 迈向通用人工智能

智能体 AI 被广泛认为是通往 通用人工智能(AGI) 的必经之路。从简单的聊天机器人到能够自主感知、规划和行动的智能体,人类正处在 AI 进化的关键拐点。

本节展望未来的技术趋势,探讨 AGI 的分级标准及可能的演进路径。

11.4.1 AGI 的定义与分级

一种常见做法是用“能力分级”来描述从对话系统到通用智能的演进路径。本节用“五级路线图”的形式给出一个可讨论的框架,帮助你定位不同系统的能力边界。

11.4.2 AGI 五级路线图

  1. Level 1: 聊天机器人

    • 具有对话能力的 AI。

    • 代表:典型对话系统。

    • 现状:已实现。

  2. Level 2: 推理者

    • 具备人类水平的问题解决能力,能够处理复杂的逻辑推理。

    • 代表:更强的推理型系统。

    • 现状:逐步成熟,但能力边界仍与场景强相关。

  3. Level 3: 智能体

    • 能够代表用户采取行动,长时间自主运行。

    • 能力:不仅能"说",还能"做";不仅能回答问题,还能 完成工作

    • 现状:加速落地 / 企业采用期(本书探讨的核心)。

  4. Level 4: 创新者

    • 能够协助发明创造,发现新知识。

    • 能力:阅读所有生物学论文,提出新的蛋白质折叠假设。

    • 现状:尚未实现。

  5. Level 5: 组织

    • 能够完成整个组织的运转工作。

    • 能力:自主运营一家公司,无需人类干预。

    • 现状:科幻范畴。

智能体 AI 正是连接 Level 2 到 Level 4 的关键桥梁。

11.4.3 未来趋势一:端侧智能体

目前的智能体大多运行在云端,但这面临隐私泄漏、网络延迟和成本高昂的问题。未来的趋势是 AI 的 小型化本地化

小语言模型

一类趋势是更小、更便宜、更易部署的模型在快速进步,逐步覆盖一部分端侧场景。

OS 级别的集成

端侧系统级集成通常具备三个特点:

  • 能读取屏幕内容(屏幕感知)。

  • 能跨应用操作(应用意图)。

  • 尽可能在本地完成敏感数据处理。

未来,"每个人的手机里都有一个贾维斯" 将成为现实。

11.4.4 未来趋势二:具身智能

智能体终将通过机器人拥有物理身体。

  • Robot as Agent: 特斯拉 Optimus, Figure 01 等人形机器人正在将 视觉语言模型 (LLM/VLM) 作为大脑。

  • 多模态闭环: 传统的机器人控制依赖硬编码的规则。具身智能体 实现了:

    1. 感知:看到杯子在桌边(Vision)。

    2. 推理:杯子快掉了,如果不接住会碎(Reasoning/World Model)。

    3. 规划:我应该伸出右手,以特定速度移动(Planning)。

    4. 行动:发送电机控制信号(Action)。

  • 挑战: 现实世界的物理容错率几乎为零。代码写错了可以重跑,机器人摔倒了硬件就坏了。Sim-to-Real(仿真到现实)的迁移技术是关键。

11.4.5 未来趋势三:大模型即操作系统

一种常见的类比是把“大模型 + 工具 + 规则 + 调度”视为某种“软件操作系统”的雏形。

如果将 LLM 类比为 CPU:

  • 上下文窗口 = RAM:上下文窗口就是内存,存放当前正在处理的数据。

  • RAG / Vector DB = Disk:外部存储就是硬盘,存放长期记忆。

  • Tools / APIs = IO Devices:能够连接联网、外设。

  • Agent Controller = Kernel:负责进程调度、资源分配、权限管理。

在未来,只要你依然在使用计算机,你其实就是在与一个智能体交互。 传统的图形界面(GUI)可能会逐渐退化为辅助,自然语言界面(LUI) 将成为人机交互的主流。不再需要学习如何点击菜单,而是学习如何向计算机下达清晰的指令。

11.4.6 未来趋势四:开放标准与行业协作

行业协作与开放标准也是重要趋势:当工具连接、权限边界、上下文传递逐步标准化后,智能体更容易跨产品与组织复用。

核心标准方向

常见的标准化方向包括:

方向
目标

工具描述与调用

让不同系统用一致方式描述工具与参数

权限与审计

明确“谁能调用什么”,并可追溯

上下文传递

在协作链路中稳定地传递关键上下文

轨迹与可观测性事件

支持跨系统回放、评估与排障


下一节: 本章小结

Last updated