7.4 原生全模态与具身智能

说明 本讲核心：真正的智能体（Agent）必须像人一样，有眼睛、有耳朵、还能动手动脚。 一句话口诀：大模型 + 机器人 = 终结者？（开玩笑，是管家）。

7.4.1 原生全模态（Native Omnimodality）

现在的多模态，很多是“拼凑”的（GPT-4 早期版本其实是外挂了一个视觉模块）。现在的 大语言模型（LLM） 正在逐步走向原生多模态。就像一个刚出生的婴儿，他不是先学会文字再学会看图，他是同时在听、看、摸的过程中学习的。这种模型在处理视频、音频、文字时，通常更少“绕路”（比如不需要先把所有信息都转成文字再处理），所以体验更流畅。

7.4.2 具身智能（Embodied AI）：AI 有了身体

AI 不能总是活在服务器里。它需要走进物理世界。这就叫 “具身智能”。想象一下：

大脑：是云端的大语言模型（LLM），负责思考、规划、理解常识。
身体：是特斯拉的擎天柱（Optimus）机器人，负责走路、拿杯子、叠衣服。

当大模型赋予机器人“常识”（比如知道玻璃杯掉在地上会碎，所以要轻拿轻放），机器人就不再是只会拧螺丝的傻大个了。它有潜力在部分家庭与工业场景承担更多任务，但距离“全能家庭保姆”仍有工程与安全门槛。

7.4.3 迈向世界模型（World Models）

AI 的一个长期目标，是建立更完整的 世界模型。在这个模型里，AI 能够推演未来。

它不需要真的把杯子推下去，就能在脑海里模拟出“杯子碎裂”的画面。
它不需要真的去撞车，就能模拟出自动驾驶的风险。

学术界对此有诸多探索路线，比如图灵奖得主 Yann LeCun 积极倡导的 JEPA（联合嵌入预测架构），就是让模型像动物和人类一样预测世界如何演变，而不是死磕每个像素点。

如果 AI 能够更稳定地模拟复杂现实世界，我们就可能更接近 通用人工智能（AGI）；但这条路径仍有很大不确定性。

7.4.4 思考题

如果未来真的有了全能的家庭机器人，又能做饭又能陪聊，甚至比你的家人更懂你（因为它是大模型，它记得你说的每一句话）。你会愿意和一个机器人建立深厚的情感联系吗？人类社会结构会不会因此解体？（比如大家都不结婚了，都和 AI 过日子）

上一页7.3 视频与音频生成下一页本章小结

最后更新于2天前

hashtag7.4.1 原生全模态（Native Omnimodality）

hashtag7.4.2 具身智能（Embodied AI）：AI 有了身体

hashtag7.4.3 迈向世界模型（World Models）

hashtag7.4.4 思考题

7.4.1 原生全模态（Native Omnimodality）

7.4.2 具身智能（Embodied AI）：AI 有了身体

7.4.3 迈向世界模型（World Models）

7.4.4 思考题