7.3 视频与音频生成

说明 本讲核心：视频与音频生成正在快速进化，但离“全面替代专业制作”还有距离。 一句话口诀：Sora 懂物理，Suno 懂乐理。

7.3.1 Sora：懂物理世界的 AI

2024 年初，OpenAI 发布的 Sora 引发了广泛关注。以前的 AI 视频，画面歪歪扭扭，人走着走着就变成了狗。而新一代模型在画质和运动连续性上都有明显进步，部分样例里能体现更好的“物理合理性”。

Sora 不仅仅是在生成像素，它似乎能在一定程度上 “理解” 重力、光影、碰撞这些物理规律。这可以看作 World Model（世界模型） 的雏形：先在“脑海里”模拟场景怎么变化，再生成画面。

如果说 Sora 让视频生产提速，那 Suno 和 Udio 则让音乐创作门槛大幅下降。你只需要输入：“一首悲伤的中文民谣，关于失恋的程序员，要有点周杰伦的风格”。几秒钟后，一首完整的、带人声演唱、带编曲的歌就出来了。有些效果已经达到“可发布 Demo”的水准。

这种技术叫 Audio Gen（音频生成）。它把声波切成了无数个小片段，像预测下一个文字一样，预测下一个音符。

试想一下，5 年后，你可能不再看 Netflix 拍好的剧了。你对电视说：“我想看一部科幻片，主角长得像我，剧情要反转三次，结局要大团圆。” 然后，AI 实时生成 了一部专属于你的 4K 电影。这仍是探索中的方向，但技术轨迹已经很清晰：内容会更“可定制、可互动”。

“Interactive Video”（交互式视频） 是重要趋势之一。但要真正普及，还要解决长时一致性、可控编辑、版权授权、内容审核与成本等问题。所以更现实的判断是：它会先在营销、游戏、教育和短视频创作中逐步落地。

当 AI 能生成以假乱真的视频和声音（Deepfake），“眼见为实”这句话就不再成立了。如果有人用 AI 生成了你犯罪的视频，你该如何证明自己的清白？未来我们是否需要一种 “反 AI 鉴定技术” 作为司法取证的标准？

最后更新于5天前