7.1 多模态学习

说明 本讲核心：真正的智能不应该是个“瞎子”或“聋子”。 一句话口诀：以前是读天书，现在是看电影。

7.1.1 什么是“多模态”？

其实，我们人类就是天生的 多模态（Multimodal） 生物。

以前的 AI 能力比较单一，更像一个“单模态”系统。

多模态 AI，就是把眼睛、耳朵、嘴巴都装到一个脑子上，让它像人一样感受这个花花世界。

怎么让 AI 知道“猫”这个字，和“毛茸茸的图片”是一回事？这就要提到一个神级算法：CLIP（OpenAI 2021 年发布）。

它的训练方法简单粗暴：

经过 4 亿次训练，AI 终于顿悟了：原来这种长相的东西叫“狗”。这样，图像世界 和 文字世界 就在 AI 的脑子里 “对齐” 了。

现在的大语言模型（LLM），不仅仅是认识“这是猫”。你给它一张复杂的财务报表截图，它能瞬间把里面的数据读出来，算好账，还顺便给你分析一下公司的经营状况。你拍一张冰箱里的剩菜，它能识别出有什么食材，然后给你推荐今晚的菜谱。

它不仅仅在“看”，它在“理解”。

现在的 AI 已经能看（视觉）、能听（听觉）、能读（文本）。你觉得 AI 还需要哪种感官，才能真正理解人类世界？（提示：为什么当前 AI 仍很难真正理解“妈妈做的红烧肉真好吃”？因为它缺了味觉、嗅觉，也缺少人类情感与生活经验。）

最后更新于2天前