7.3 视频与音频生成
说明 本讲核心:视频与音频生成正在快速进化,但离“全面替代专业制作”还有距离。 一句话口诀:Sora 懂物理,Suno 懂乐理。
7.3.1 Sora:懂物理世界的 AI
2024 年初,OpenAI 发布的 Sora 引发了广泛关注。 以前的 AI 视频,画面歪歪扭扭,人走着走着就变成了狗。 而新一代模型在画质和运动连续性上都有明显进步,部分样例里能体现更好的“物理合理性”。
女人走在东京街头,水坑里的倒影是准确的。
越野车在土路上跑,扬起的灰尘是真实的。
Sora 不仅仅是在生成像素,它似乎能在一定程度上 “理解” 重力、光影、碰撞这些物理规律。 这可以看作 World Model(世界模型) 的雏形:先在“脑海里”模拟场景怎么变化,再生成画面。
7.3.2 Suno & Udio:AI 贝多芬
如果说 Sora 让视频生产提速,那 Suno 和 Udio 则让音乐创作门槛大幅下降。 你只需要输入:“一首悲伤的中文民谣,关于失恋的程序员,要有点周杰伦的风格”。 几秒钟后,一首完整的、带人声演唱、带编曲的歌就出来了。 有些效果已经达到“可发布 Demo”的水准。
这种技术叫 Audio Gen(音频生成)。 它把声波切成了无数个小片段,像预测下一个文字一样,预测下一个音符。
7.3.3 未来的娱乐业:交互式内容(Interactive Video)
试想一下,5 年后,你可能不再看 Netflix 拍好的剧了。 你对电视说:“我想看一部科幻片,主角长得像我,剧情要反转三次,结局要大团圆。” 然后,AI 实时生成 了一部专属于你的 4K 电影。 这仍是探索中的方向,但技术轨迹已经很清晰:内容会更“可定制、可互动”。
“Interactive Video”(交互式视频) 是重要趋势之一。 但要真正普及,还要解决长时一致性、可控编辑、版权授权、内容审核与成本等问题。 所以更现实的判断是:它会先在营销、游戏、教育和短视频创作中逐步落地。
7.3.4 思考题
当 AI 能生成以假乱真的视频和声音(Deepfake),“眼见为实”这句话就不再成立了。 如果有人用 AI 生成了你犯罪的视频,你该如何证明自己的清白? 未来我们是否需要一种 “反 AI 鉴定技术” 作为司法取证的标准?
最后更新于
