10.3 音频与视频处理

随着 GPT-4o、Gemini 3 等模型的发布,音频和视频理解能力正在成为多模态 AI 的重要组成部分。与静态图像不同,音视频处理需要考虑时间维度,这对提示设计提出了新的要求。

10.3.1 音频处理能力现状

当前主流模型的音频能力差异较大:

模型/系统
音频输入
实时语音
音频输出

GPT-5

视具体产品/API而定

视具体产品/API而定

视具体产品/API而定

Gemini 3

支持音频理解

视产品形态而定

以文本输出为主

Claude Opus 4.6

通常需配合外部语音链路

需配合外部语音链路

以文本输出为主

Whisper V3

✅ 支持

❌ 不支持

❌ 不支持

核心能力

  • 语音识别:将语音转录为文字,支持多语言

  • 语音对话:直接以语音形式进行实时交互

  • 音频理解:识别音乐类型、环境声音、说话人情绪

  • 语音合成:将文字转换为自然语音

10.3.2 音频提示设计

1. 语音转录任务

高质量的语音转录需要明确输出要求:

2. 音频内容分析

对音频内容进行深度分析:

3. 实时语音对话

在支持实时语音交互的产品形态中,可通过系统提示定制语音助手:

10.3.3 视频处理能力现状

视频理解是多模态模型最复杂的能力,需要同时处理视觉、音频和时序信息:

模型/系统
视频长度能力
处理方式
音频支持

Gemini 3

长视频理解能力强

原生视频/音频多模态

视产品形态而定

GPT-5

视具体产品/API能力而定

常见做法是图像序列或视频相关工作流

视产品形态而定

Claude Opus 4.6

更适合图像序列、截图和长文档工作流

通常以文本与图像理解为主

需外部音频链路

核心能力

  • 视频摘要:概括视频主要内容

  • 时间定位:找到特定事件发生的时间点

  • 动作识别:识别视频中的动作和活动

  • 视频问答:回答关于视频内容的问题

  • 字幕生成:为视频生成描述性字幕

10.3.4 视频提示设计

1. 视频内容摘要

2. 视频内容问答

3. 教学视频分析

10.3.5 长视频处理策略

对于超出模型处理能力的长视频,可采用以下策略:

策略一:关键帧提取

策略二:分段处理

策略三:音视频分离

10.3.6 音视频提示的关键原则

  1. 时间粒度明确:指定希望模型关注的时间范围或粒度

  2. 多模态融合:同时利用视觉和听觉信息,而非只关注单一模态

  3. 输出结构化:使用时间戳格式化输出,便于定位和引用

  4. 任务分解:复杂的长内容分解为多个子任务处理

延伸思考

  1. 处理一段 10 分钟的视频,“截取关键帧+图像分析”和“音频转录+文本分析”哪种路径信息损失更少?能否组合使用?

  2. 音频和视频输入的 Token 成本远高于纯文本——在成本受限场景下,你会用什么策略来优化?

最后更新于