10.1 多模态模型概述

多模态大语言模型代表了人工智能发展的重要里程碑。与传统的纯文本模型不同，多模态模型能够同时理解和处理多种类型的数据，包括文本、图像、音频和视频，从而实现更自然、更接近人类认知方式的智能交互。

10.1.1 多模态模型的技术演进

多模态能力的发展经历了几个关键阶段：

早期探索（2020-2022）：CLIP、DALL-E 等模型证明了视觉与语言联合学习的可行性。这一时期的重点是跨模态对齐，即让模型理解图像和文本描述之间的对应关系。

视觉语言模型（2023）：GPT-4V、Gemini、Claude 3 等模型将视觉理解能力直接集成到对话系统中。用户可以在对话中直接上传图像，模型能够描述图像内容、回答关于图像的问题，甚至进行图像相关的推理任务。

原生多模态（2024-2025）：以 Gemini 2.5 Pro 和 GPT-4o 为代表，这一代模型从架构层面实现了真正的多模态融合。模型不再是”先看图后说话”的分离式处理，而是能够同时理解和生成多种模态的内容。

多模态工作流深化（2025-2026）：以 GPT-5（2025.08 发布，已迭代至 GPT-5.4）、Claude Opus 4.6、Claude Sonnet 4.6以及Gemini 3 / Gemini 3.1 Pro 为代表，多模态模型开始更深地整合视觉理解、音视频分析、工具调用和代理工作流。需要注意的是，不同厂商公开的 API 与产品能力边界并不完全相同，不能把路线图、演示能力与正式可用能力混为一谈。

10.1.2 主流多模态模型对比

模型

支持的输入模态

支持的输出模态

核心特点

GPT-5

文本、图像

文本

长上下文、高精度推理、适合复杂多步工作流

Claude Opus 4.6

文本、图像

文本

1M Context，擅长复杂分析与 Agent 工作流

Gemini 3 Pro

文本、图像、音频、视频

文本

原生多模态，1M Context，长视频理解能力强

Llama 4 (Open)

文本、图像

文本

开源多模态，适合自托管与定制化场景

10.1.3 多模态能力的四大支柱

1. 图像理解

图像理解是当前多模态模型最成熟的能力，包括：

视觉描述：详细描述图像内容、场景、物体
文档解析：提取文档、表格、发票中的结构化信息
图表分析：解读数据可视化图表的含义
视觉问答：回答关于图像细节的具体问题
空间推理：理解物体的位置、方向、相对关系

2. 音频处理

音频能力正在快速发展：

语音转写：高精度的语音识别
语音对话：直接以语音形式进行实时对话
音频分析：识别环境声音、音乐类型、说话人情感
多语言支持：跨语言语音理解和翻译

3. 视频理解

视频理解结合了图像和时序信息：

内容摘要：概括视频的主要内容
时间定位：定位视频中特定事件发生的时间点
动作识别：识别视频中人物或物体的动作
因果推理：理解视频中事件的因果关系

4. 跨模态生成

部分模型已支持生成非文本内容：

文生图：DALL-E 3、Midjourney、Stable Diffusion
文生音频：Suno、Udio（音乐生成）
文生视频：Sora、Runway（视频生成）

10.1.4 多模态提示词的核心原则

在设计多模态提示词时，需要遵循以下原则：

原则一：模态协调

文字指令需要与其他模态输入协调配合。模型需要明确知道你希望它如何处理上传的内容。

❌ 不佳："分析这个"
✅ 较好："请分析上传图片中的柱状图，提取各季度的销售数据，并识别增长趋势"

原则二：明确引用

当上传多个图像或处理复杂多模态输入时，需要清晰指向具体内容：

"请比较图 1（左侧产品照片）和图 2（右侧竞品照片），
从外观设计、功能布局、用户体验三个维度进行对比分析"

原则三：任务聚焦

每次聚焦于特定的分析目标，避免在单次请求中要求过多不同类型的处理：

❌ 不佳："分析这张图片的所有内容，提取文字，描述风格，判断真伪"
✅ 较好："请提取这张发票图片中的以下信息：发票号码、日期、金额、收款方"

原则四：格式适配

根据输入模态和任务类型，指定合适的输出格式：

"请将这张餐厅菜单图片中的菜品信息提取为 JSON 格式：
{
  \"菜品名\": \"...\",
  \"价格\": \"...\",
  \"描述\": \"...\"
}"

10.1.5 多模态应用场景

多模态模型正在重塑多个行业：

领域

应用场景

使用的模态

医疗健康

医学影像分析、病历理解

图像 + 文本

电商零售

商品图像搜索、视觉问答

图像 + 文本

教育培训

手写作业批改、视频课程摘要

图像/视频 + 文本

金融服务

票据识别、合同分析

图像 + 文本

客户服务

语音客服、视频会议分析

音频/视频 + 文本

想一想

多模态模型同时处理文本和图像——这和“先用 OCR 提取文字再给文本模型”有什么本质区别？
在你的工作中，哪个场景最有可能受益于多模态输入（图片+文字）？

上一页第十章多模态提示工程下一页10.2 图像理解与视觉提示

最后更新于 9天前

hashtag10.1.1 多模态模型的技术演进

hashtag10.1.2 主流多模态模型对比

hashtag10.1.3 多模态能力的四大支柱

hashtag1. 图像理解

hashtag2. 音频处理

hashtag3. 视频理解

hashtag4. 跨模态生成

hashtag10.1.4 多模态提示词的核心原则

hashtag原则一：模态协调

hashtag原则二：明确引用

hashtag原则三：任务聚焦

hashtag原则四：格式适配

hashtag10.1.5 多模态应用场景

hashtag想一想

10.1.1 多模态模型的技术演进

10.1.2 主流多模态模型对比

10.1.3 多模态能力的四大支柱

1. 图像理解

2. 音频处理

3. 视频理解

4. 跨模态生成

10.1.4 多模态提示词的核心原则

原则一：模态协调

原则二：明确引用

原则三：任务聚焦

原则四：格式适配

10.1.5 多模态应用场景

想一想