7.2 图像生成与扩散模型

说明 本讲核心：AI 画画不是在“拼贴素材”，而是在“雕刻噪点”。 一句话口诀：无中生有，始于噪点。

7.2.1 以前的 AI 画画：像拼贴

在 2022 年之前，AI 主要是靠 GAN（生成对抗网络） 画画。简单说，就是让两个 AI 打架：

骗子（生成器）：拼命造假画。
警察（判别器）：拼命抓假画。打到最后，骗子技艺大涨，连警察都分不清真假了。但这有个问题：GAN 生成的图，往往细节很假，而且很难控制内容。

7.2.2 现在的 AI 画画：扩散模型（Diffusion）

2022 年，Stable Diffusion 和 Midjourney 横空出世。它们用了一种全新的魔法：扩散模型。

你可以把它想象成 “修复文物” 的过程，但是是倒着来的：

加噪（破坏）：把一张《蒙娜丽莎》一点点泼上墨水（噪点），直到它变成一张完全看不清的雪花屏。
去噪（修复）：AI 学习这个过程的逆过程。
- 给它一张雪花屏（随机噪声）。
- 告诉它：“这就叫 '一只骑摩托的猫' 的雪花屏”。
- AI 开始一点点把噪点擦掉。
- 奇迹发生了！随着噪点消失，一只猫的轮廓浮现出来，然后是毛发，然后是摩托车...

7.2.3 为什么 AI 怕画手？

很多人发现，AI 画的脸美若天仙，但手经常是 6 根指头，或者长得像爪子。这是因为在扩散模型的学习素材里，人脸通常是很清晰、很标准的。但在照片里，手经常是模糊的、遮挡的、奇形怪状的（拿杯子、插口袋）。 AI 没学明白手的解剖结构，它只是在 “模仿像素的排列”。它觉得这里应该有一堆肉色的东西，至于是不是 5 根，它不太在乎。（注：近两年的新版本在手部细节上已有明显改善，但复杂姿态下仍可能出现失真）。

7.2.4 思考题

AI 生成的画，算不算 “艺术”？如果 AI 学习了梵高所有的画，然后生成了一幅“梵高风格”的新作，那这幅画的版权应该归谁？是归开发 AI 的公司？归输入提示词（Prompt）的用户？还是归梵高（的后人）？这目前是法律界最头疼的问题。

上一页7.1 多模态学习下一页7.3 视频与音频生成

最后更新于5天前

hashtag7.2.1 以前的 AI 画画：像拼贴

hashtag7.2.2 现在的 AI 画画：扩散模型（Diffusion）

hashtag7.2.3 为什么 AI 怕画手？

hashtag7.2.4 思考题

7.2.1 以前的 AI 画画：像拼贴

7.2.2 现在的 AI 画画：扩散模型（Diffusion）

7.2.3 为什么 AI 怕画手？

7.2.4 思考题