7.3 视频与音频生成

说明 本讲核心:视频与音频生成正在快速进化,但离“全面替代专业制作”还有距离。 一句话口诀:Sora 懂物理,Suno 懂乐理。

7.3.1 Sora:懂物理世界的 AI

2024 年初,OpenAI 发布的 Sora 引发了广泛关注。 以前的 AI 视频,画面歪歪扭扭,人走着走着就变成了狗。 而新一代模型在画质和运动连续性上都有明显进步,部分样例里能体现更好的“物理合理性”。

  • 女人走在东京街头,水坑里的倒影是准确的。

  • 越野车在土路上跑,扬起的灰尘是真实的。

Sora 不仅仅是在生成像素,它似乎能在一定程度上 “理解” 重力、光影、碰撞这些物理规律。 这可以看作 World Model(世界模型) 的雏形:先在“脑海里”模拟场景怎么变化,再生成画面。

7.3.2 Suno & Udio:AI 贝多芬

如果说 Sora 让视频生产提速,那 SunoUdio 则让音乐创作门槛大幅下降。 你只需要输入:“一首悲伤的中文民谣,关于失恋的程序员,要有点周杰伦的风格”。 几秒钟后,一首完整的、带人声演唱、带编曲的歌就出来了。 有些效果已经达到“可发布 Demo”的水准。

这种技术叫 Audio Gen(音频生成)。 它把声波切成了无数个小片段,像预测下一个文字一样,预测下一个音符。

7.3.3 未来的娱乐业:交互式内容(Interactive Video)

试想一下,5 年后,你可能不再看 Netflix 拍好的剧了。 你对电视说:“我想看一部科幻片,主角长得像我,剧情要反转三次,结局要大团圆。” 然后,AI 实时生成 了一部专属于你的 4K 电影。 这仍是探索中的方向,但技术轨迹已经很清晰:内容会更“可定制、可互动”。

“Interactive Video”(交互式视频) 是重要趋势之一。 但要真正普及,还要解决长时一致性、可控编辑、版权授权、内容审核与成本等问题。 所以更现实的判断是:它会先在营销、游戏、教育和短视频创作中逐步落地。

7.3.4 思考题

当 AI 能生成以假乱真的视频和声音(Deepfake),“眼见为实”这句话就不再成立了。 如果有人用 AI 生成了你犯罪的视频,你该如何证明自己的清白? 未来我们是否需要一种 “反 AI 鉴定技术” 作为司法取证的标准?

最后更新于