第七章 从多模态到具身智能

探索 AI 如何理解和创造图像、音频、视频


AI 的能力已经超越了纯文本领域。多模态 AI 能够同时处理文本、图像、音频、视频等多种形式的数据;生成式 AI 则能够创造全新的内容。本章将介绍这些令人兴奋的技术方向。

本章内容

  • 7.1 多模态 AI 概述:理解多模态学习的基本概念

  • 7.2 图像生成技术:解析 DALL-E、Stable Diffusion 等模型

  • 7.3 视频与音频生成:了解 Sora、Suno 等新兴技术

  • 7.4 多模态融合与应用:探索多模态技术的实际应用

最后更新于