9.3 视频与音频生成

视频与音频生成正在快速进化,但离“全面替代专业制作”还有距离。Sora 懂物理,Suno 懂乐理。

9.3.1 Sora:懂物理世界的 AI

2024 年初,OpenAI 发布的 Sora 引发了广泛关注。

以前的 AI 视频,画面歪歪扭扭,人走着走着就变成了狗。

而新一代模型在画质和运动连续性上都有明显进步,部分样例里能体现更好的“物理合理性”。

  • 女人走在东京街头,水坑里的倒影是准确的。

  • 越野车在土路上跑,扬起的灰尘是真实的。

Sora 不仅仅是在生成像素,它似乎能在一定程度上 “理解” 重力、光影、碰撞这些物理规律。

这可以看作 World Model(世界模型) 的雏形:先在“脑海里”模拟场景怎么变化,再生成画面。

9.3.2 Suno & Udio:AI 贝多芬

如果说 Sora 让视频生产提速,那 SunoUdio 则让音乐创作门槛大幅下降。

你只需要输入:“一首悲伤的中文民谣,关于失恋的程序员,要有点周杰伦的风格”。

几秒钟后,一首完整的、带人声演唱、带编曲的歌就出来了。

有些效果已经达到“可发布 Demo”的水准。

这种技术叫 Audio Gen(音频生成)

它把声波切成了无数个小片段,像预测下一个文字一样,预测下一个音符。

9.3.3 Seedance:电影级的音视频同步生成

2026 年初,字节跳动发布了视频生成模型 Seedance 2.0,在业界掘起新一轮讨论。

与 Sora 主要生成“静音视频”不同,Seedance 2.0 的最大亮点是 原生音视频同步生成——画面和声音在同一个模型里一起产出,无需后期配音。角色说话时,嘴型、语调、环境音效浑然一体,支持 8 种以上语言的唇形同步。

另一个突破是 多镜头叙事(Multi-shot Storytelling):你只需给出一段剧情描述,模型就能自动拆分成多个镜头,保持角色外貌一致、场景逻辑连贯——有点像一个“AI 导演”在帮你分镜。

不过,Seedance 2.0 也引发了激烈的版权争议。好莱坞的电影协会(MPA)以及迪士尼等公司指控其训练数据中使用了大量受版权保护的影视作品,字节跳动不得不推迟了全球 API 的上线计划。这再次提醒我们:生成能力越强,围绕数据来源和知识产权的法律问题就越紧迫。

9.3.4 未来的娱乐业:交互式内容

试想一下,5 年后,你可能不再看 Netflix 拍好的剧了。

你对电视说:“我想看一部科幻片,主角长得像我,剧情要反转三次,结局要大团圆。”

然后,AI 实时生成 了一部专属于你的 4K 电影。

这仍是探索中的方向,但技术轨迹已经很清晰:内容会更“可定制、可互动”。

“Interactive Video”(交互式视频) 是重要趋势之一。

但要真正普及,还要解决长时一致性、可控编辑、版权授权、内容审核与成本等问题。

所以更现实的判断是:它会先在营销、游戏、教育和短视频创作中逐步落地。

9.3.5 思考题

当 AI 能生成以假乱真的视频和声音(Deepfake),“眼见为实”这句话就不再成立了。

如果有人用 AI 生成了你犯罪的视频,你该如何证明自己的清白?

未来我们是否需要一种 “反 AI 鉴定技术” 作为司法取证的标准?

最后更新于