# 9.3 视频与音频生成

> 视频与音频生成正在快速进化，但离“全面替代专业制作”还有距离。Suno 懂乐理，而视频生成领域仍在快速迭代。

## 9.3.1 从 Sora 看视频生成：AI 如何理解物理世界

2024 年初，OpenAI 发布的 **Sora** 曾引发广泛关注，展示了 AI 视频生成在画质和运动连续性上的重大突破。

在此之前，AI 视频画面歪歪扭扭，人走着走着就变成了狗。而 Sora 的样例展现了更好的“物理合理性”：

* 女人走在东京街头，水坑里的倒影是准确的。
* 越野车在土路上跑，扬起的灰尘是真实的。

Sora 不仅仅是在生成像素，它似乎能在一定程度上 **“理解”** 重力、光影、碰撞这些物理规律。

这可以看作 **World Model（世界模型）** 的雏形：先在“脑海里”模拟场景怎么变化，再生成画面。

值得注意的是，OpenAI 官方帮助中心说明 Sora API 将于 2026 年 9 月 24 日停止服务；同时官方开发者文档仍列出 Sora 2 / Sora 2 Pro。对学习者来说，这说明视频生成领域仍在快速洗牌，不应把某一代产品入口当作长期稳定事实。

与此同时，其他重要的视频生成模型也在快速迭代：**Google Veo 3.1 Preview**、**Runway Gen-3/Gen-4**、**Kling** 等各具特色。这些模型的竞争正在推动视频生成从演示走向更可用的创作工具，但具体能力和开放范围要以各厂商官方文档为准。

## 9.3.2 Suno & Udio：AI 贝多芬

如果说 Sora 让视频生产提速，那 **Suno**和**Udio** 则让音乐创作门槛大幅下降。

你只需要输入：“一首悲伤的中文民谣，关于失恋的程序员，要有点周杰伦的风格”。

几秒钟后，一首完整的、带人声演唱、带编曲的歌就出来了。

有些效果已经达到“可发布 Demo”的水准。

这种技术叫 **Audio Gen（音频生成）**。

它把声波切成了无数个小片段，像预测下一个文字一样，预测下一个音符。

## 9.3.3 Seedance：电影级的音视频同步生成

2026 年初，字节跳动发布了视频生成模型 **Seedance 2.0**，在业界掀起新一轮讨论。

与 Sora 主要生成“静音视频”不同，Seedance 2.0 的最大亮点是 **原生音视频同步生成**——画面和声音在同一个模型里一起产出，无需后期配音。角色说话时，嘴型、语调、环境音效浑然一体，支持 8 种以上语言的唇形同步。

另一个突破是 **多镜头叙事（Multi-shot Storytelling）**：你只需给出一段剧情描述，模型就能自动拆分成多个镜头，保持角色外貌一致、场景逻辑连贯——有点像一个“AI 导演”在帮你分镜。

不过，Seedance 2.0 也引发了激烈的版权争议。好莱坞的电影协会（MPA）以及迪士尼等公司指控其训练数据中使用了大量受版权保护的影视作品，字节跳动不得不推迟了全球 API 的上线计划。这再次提醒我们：生成能力越强，围绕数据来源和知识产权的法律问题就越紧迫。

## 9.3.4 未来的娱乐业：交互式内容

试想一下，5 年后，你可能不再看 Netflix 拍好的剧了。

你对电视说：“我想看一部科幻片，主角长得像我，剧情要反转三次，结局要大团圆。”

然后，AI **实时生成** 了一部专属于你的 4K 电影。

这仍是探索中的方向，但技术轨迹已经很清晰：内容会更“可定制、可互动”。

**“Interactive Video”（交互式视频）** 是重要趋势之一。

但要真正普及，还要解决长时一致性、可控编辑、版权授权、内容审核与成本等问题。

所以更现实的判断是：它会先在营销、游戏、教育和短视频创作中逐步落地。

## 9.3.5 思考题

当 AI 能生成以假乱真的视频和声音（Deepfake），“眼见为实”这句话就不再成立了。

如果有人用 AI 生成了你犯罪的视频，你该如何证明自己的清白？

未来我们是否需要一种 **“反 AI 鉴定技术”** 作为司法取证的标准？


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/09_multimodal_genai/9.3_video_audio.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.