10.3 音频与视频处理

随着 GPT-4o、Gemini 3 等模型的发布，音频和视频理解能力正在成为多模态 AI 的重要组成部分。与静态图像不同，音视频处理需要考虑时间维度，这对提示设计提出了新的要求。

10.3.1 音频处理能力现状

当前主流模型的音频能力差异较大：

模型/系统

音频输入

实时语音

音频输出

GPT-5

视具体产品/API而定

Gemini 3

支持音频理解

视产品形态而定

以文本输出为主

Claude Opus 4.6

通常需配合外部语音链路

需配合外部语音链路

以文本输出为主

Whisper V3

✅ 支持

❌ 不支持

核心能力：

语音识别：将语音转录为文字，支持多语言
语音对话：直接以语音形式进行实时交互
音频理解：识别音乐类型、环境声音、说话人情绪
语音合成：将文字转换为自然语音

10.3.2 音频提示设计

1. 语音转录任务

高质量的语音转录需要明确输出要求：

请将这段音频转录为文字，并遵循以下规范：

格式要求：
- 使用标准标点符号
- 段落按语义自然分段
- 保留语气词（嗯、啊等）标记为[语气词]
- 标注明显的停顿为[停顿]

特殊处理：
- 如有多人对话，标注说话人（说话人 A/B/C）
- 背景音乐或环境音标注为[背景音：描述]
- 无法识别的内容标注为[无法识别]

输出语言：中文（如原音频为其他语言，请先转录原文再翻译）

2. 音频内容分析

对音频内容进行深度分析：

请分析这段播客音频（约 15 分钟）：

1. 内容摘要
   - 核心主题和论点
   - 讨论的主要话题（按时间顺序）

2. 参与者分析
   - 有几位说话人
   - 各自的角色/立场
   - 发言比例估计

3. 语言风格
   - 正式/非正式程度
   - 是否有专业术语
   - 整体氛围（严肃/轻松/争论性）

4. 关键时间点
   - 列出 3-5 个值得关注的时间点及原因

3. 实时语音对话

在支持实时语音交互的产品形态中，可通过系统提示定制语音助手：

你是一位专业的语音客服助手。

语音风格：
- 语速适中，吐字清晰
- 语气亲切但专业
- 适当使用语气助词使对话更自然

交互规范：
- 每次回复控制在 30 秒以内
- 复杂问题分步骤回答
- 主动确认用户是否理解
- 遇到听不清时礼貌请求重复

10.3.3 视频处理能力现状

视频理解是多模态模型最复杂的能力，需要同时处理视觉、音频和时序信息：

模型/系统

视频长度能力

处理方式

音频支持

Gemini 3

长视频理解能力强

原生视频/音频多模态

视产品形态而定

GPT-5

视具体产品/API能力而定

常见做法是图像序列或视频相关工作流

视产品形态而定

Claude Opus 4.6

更适合图像序列、截图和长文档工作流

通常以文本与图像理解为主

需外部音频链路

核心能力：

视频摘要：概括视频主要内容
时间定位：找到特定事件发生的时间点
动作识别：识别视频中的动作和活动
视频问答：回答关于视频内容的问题
字幕生成：为视频生成描述性字幕

10.3.4 视频提示设计

1. 视频内容摘要

请观看这段产品演示视频（约 5 分钟）并生成：

## 内容摘要

- 整体概述（100 字以内）
- 演示的主要功能点（列表）

## 时间轴标注

按以下格式标注关键时间点：
[MM:SS] - 事件/功能描述

## 演示亮点

- 最有说服力的 3 个演示环节
- 建议剪辑的精华片段时间范围

## 待改进项

- 演示流程中的不流畅之处
- 遗漏或讲解不清的功能

2. 视频内容问答

根据上传的会议录像回答以下问题：

1. 会议讨论了哪些主要议题？
2. 与会者对「项目预算」有哪些不同意见？
3. 最终达成了什么决议？
4. 是否有任务分配？分配给了谁？

请在回答中标注相关内容出现的时间点（格式：[HH:MM:SS]）。

3. 教学视频分析

请分析这段编程教学视频：

学习目标识别：
- 本视频旨在教授什么技能/概念？
- 前置知识要求是什么？

内容结构：
- 按时间顺序列出教学步骤
- 标注代码示例出现的时间点

教学质量评估：
- 讲解清晰度（1-10 分）
- 实例恰当性（1-10 分）
- 节奏把控（1-10 分）

改进建议：
- 哪些部分需要更详细的解释？
- 是否有跳跃或遗漏的知识点？

10.3.5 长视频处理策略

对于超出模型处理能力的长视频，可采用以下策略：

策略一：关键帧提取

from __future__ import annotations

def extract_keyframes(video: str, *, interval: str) -> list[str]:
    return [f"{video}-frame@{interval}-1", f"{video}-frame@{interval}-2"]

class Model:
    def analyze(self, frame: str, *, prompt: str) -> str:
        return f"{frame}: {prompt}"

    def synthesize(self, results: list[str], *, prompt: str) -> str:
        return prompt + " -> " + " | ".join(results)

video = "demo_video.mp4"
model = Model()

frames = extract_keyframes(video, interval="30s")  # 每 30 秒提取一帧
results: list[str] = []
for frame in frames:
    results.append(model.analyze(frame, prompt="描述这一帧的内容"))

summary = model.synthesize(results, prompt="综合所有帧内容，生成视频摘要")
print(summary)

策略二：分段处理

长视频处理流程：
1. 将视频分割为 5 分钟的片段
2. 分别分析每个片段
3. 综合各片段结果生成整体分析

策略三：音视频分离

复杂视频分析流程：
1. 提取音频轨道 → 单独进行语音转录和分析
2. 提取关键帧 → 单独进行视觉内容分析
3. 融合两者结果 → 生成综合分析报告

10.3.6 音视频提示的关键原则

时间粒度明确：指定希望模型关注的时间范围或粒度
多模态融合：同时利用视觉和听觉信息，而非只关注单一模态
输出结构化：使用时间戳格式化输出，便于定位和引用
任务分解：复杂的长内容分解为多个子任务处理

延伸思考

处理一段 10 分钟的视频，“截取关键帧+图像分析”和“音频转录+文本分析”哪种路径信息损失更少？能否组合使用？
音频和视频输入的 Token 成本远高于纯文本——在成本受限场景下，你会用什么策略来优化？

上一页10.2 图像理解与视觉提示下一页10.4 跨模态推理与融合

最后更新于 4天前

hashtag10.3.1 音频处理能力现状

hashtag10.3.2 音频提示设计

hashtag1. 语音转录任务

hashtag2. 音频内容分析

hashtag3. 实时语音对话

hashtag10.3.3 视频处理能力现状

hashtag10.3.4 视频提示设计

hashtag1. 视频内容摘要

hashtag2. 视频内容问答

hashtag3. 教学视频分析

hashtag10.3.5 长视频处理策略

hashtag策略一：关键帧提取

hashtag策略二：分段处理

hashtag策略三：音视频分离

hashtag10.3.6 音视频提示的关键原则

hashtag延伸思考

10.3.1 音频处理能力现状

10.3.2 音频提示设计

1. 语音转录任务

2. 音频内容分析

3. 实时语音对话

10.3.3 视频处理能力现状

10.3.4 视频提示设计

1. 视频内容摘要

2. 视频内容问答

3. 教学视频分析

10.3.5 长视频处理策略

策略一：关键帧提取

策略二：分段处理

策略三：音视频分离

10.3.6 音视频提示的关键原则

延伸思考