7.4 原生全模态与具身智能

说明 本讲核心:真正的智能体(Agent)必须像人一样,有眼睛、有耳朵、还能动手动脚。 一句话口诀:大模型 + 机器人 = 终结者?(开玩笑,是管家)。

7.4.1 原生全模态(Native Omnimodality)

现在的多模态,很多是“拼凑”的(GPT-4 早期版本其实是外挂了一个视觉模块)。 现在的 大语言模型(LLM) 正在逐步走向 原生 多模态。 就像一个刚出生的婴儿,他不是先学会文字再学会看图,他是 同时 在听、看、摸的过程中学习的。 这种模型在处理视频、音频、文字时,通常更少“绕路”(比如不需要先把所有信息都转成文字再处理),所以体验更流畅。

7.4.2 具身智能(Embodied AI):AI 有了身体

AI 不能总是活在服务器里。它需要走进物理世界。 这就叫 “具身智能”。 想象一下:

  • 大脑:是云端的大语言模型(LLM),负责思考、规划、理解常识。

  • 身体:是特斯拉的擎天柱(Optimus)机器人,负责走路、拿杯子、叠衣服。

当大模型赋予机器人“常识”(比如知道玻璃杯掉在地上会碎,所以要轻拿轻放),机器人就不再是只会拧螺丝的傻大个了。 它有潜力在部分家庭与工业场景承担更多任务,但距离“全能家庭保姆”仍有工程与安全门槛。

7.4.3 迈向世界模型(World Models)

AI 的一个长期目标,是建立更完整的 世界模型。 在这个模型里,AI 能够推演未来。

  • 它不需要真的把杯子推下去,就能在脑海里模拟出“杯子碎裂”的画面。

  • 它不需要真的去撞车,就能模拟出自动驾驶的风险。

学术界对此有诸多探索路线,比如图灵奖得主 Yann LeCun 积极倡导的 JEPA(联合嵌入预测架构),就是让模型像动物和人类一样预测世界如何演变,而不是死磕每个像素点。

如果 AI 能够更稳定地模拟复杂现实世界,我们就可能更接近 通用人工智能(AGI);但这条路径仍有很大不确定性。

7.4.4 思考题

如果未来真的有了全能的家庭机器人,又能做饭又能陪聊,甚至比你的家人更懂你(因为它是大模型,它记得你说的每一句话)。 你会愿意和一个机器人建立深厚的情感联系吗? 人类社会结构会不会因此解体?(比如大家都不结婚了,都和 AI 过日子)

最后更新于