7.2 图像生成与扩散模型

说明 本讲核心:AI 画画不是在“拼贴素材”,而是在“雕刻噪点”。 一句话口诀:无中生有,始于噪点。

7.2.1 以前的 AI 画画:像拼贴

在 2022 年之前,AI 主要是靠 GAN(生成对抗网络) 画画。 简单说,就是让两个 AI 打架:

  • 骗子(生成器):拼命造假画。

  • 警察(判别器):拼命抓假画。 打到最后,骗子技艺大涨,连警察都分不清真假了。 但这有个问题:GAN 生成的图,往往细节很假,而且很难控制内容。

7.2.2 现在的 AI 画画:扩散模型(Diffusion)

2022 年,Stable DiffusionMidjourney 横空出世。 它们用了一种全新的魔法:扩散模型

你可以把它想象成 “修复文物” 的过程,但是是倒着来的:

  1. 加噪(破坏):把一张《蒙娜丽莎》一点点泼上墨水(噪点),直到它变成一张完全看不清的雪花屏。

  2. 去噪(修复):AI 学习这个过程的逆过程。

    • 给它一张雪花屏(随机噪声)。

    • 告诉它:“这就叫 '一只骑摩托的猫' 的雪花屏”。

    • AI 开始一点点把噪点擦掉。

    • 奇迹发生了!随着噪点消失,一只猫的轮廓浮现出来,然后是毛发,然后是摩托车...

7.2.3 为什么 AI 怕画手?

很多人发现,AI 画的脸美若天仙,但手经常是 6 根指头,或者长得像爪子。 这是因为在扩散模型的学习素材里,人脸通常是很清晰、很标准的。 但在照片里,手经常是模糊的、遮挡的、奇形怪状的(拿杯子、插口袋)。 AI 没学明白手的解剖结构,它只是在 “模仿像素的排列”。它觉得这里应该有一堆肉色的东西,至于是不是 5 根,它不太在乎。 (注:近两年的新版本在手部细节上已有明显改善,但复杂姿态下仍可能出现失真)。

7.2.4 思考题

AI 生成的画,算不算 “艺术”? 如果 AI 学习了梵高所有的画,然后生成了一幅“梵高风格”的新作,那这幅画的 版权 应该归谁? 是归开发 AI 的公司?归输入提示词(Prompt)的用户?还是归梵高(的后人)? 这目前是法律界最头疼的问题。

最后更新于