7.2 图像生成与扩散模型
说明 本讲核心:AI 画画不是在“拼贴素材”,而是在“雕刻噪点”。 一句话口诀:无中生有,始于噪点。
7.2.1 以前的 AI 画画:像拼贴
在 2022 年之前,AI 主要是靠 GAN(生成对抗网络) 画画。 简单说,就是让两个 AI 打架:
骗子(生成器):拼命造假画。
警察(判别器):拼命抓假画。 打到最后,骗子技艺大涨,连警察都分不清真假了。 但这有个问题:GAN 生成的图,往往细节很假,而且很难控制内容。
7.2.2 现在的 AI 画画:扩散模型(Diffusion)
2022 年,Stable Diffusion 和 Midjourney 横空出世。 它们用了一种全新的魔法:扩散模型。
你可以把它想象成 “修复文物” 的过程,但是是倒着来的:
加噪(破坏):把一张《蒙娜丽莎》一点点泼上墨水(噪点),直到它变成一张完全看不清的雪花屏。
去噪(修复):AI 学习这个过程的逆过程。
给它一张雪花屏(随机噪声)。
告诉它:“这就叫 '一只骑摩托的猫' 的雪花屏”。
AI 开始一点点把噪点擦掉。
奇迹发生了!随着噪点消失,一只猫的轮廓浮现出来,然后是毛发,然后是摩托车...
7.2.3 为什么 AI 怕画手?
很多人发现,AI 画的脸美若天仙,但手经常是 6 根指头,或者长得像爪子。 这是因为在扩散模型的学习素材里,人脸通常是很清晰、很标准的。 但在照片里,手经常是模糊的、遮挡的、奇形怪状的(拿杯子、插口袋)。 AI 没学明白手的解剖结构,它只是在 “模仿像素的排列”。它觉得这里应该有一堆肉色的东西,至于是不是 5 根,它不太在乎。 (注:近两年的新版本在手部细节上已有明显改善,但复杂姿态下仍可能出现失真)。
7.2.4 思考题
AI 生成的画,算不算 “艺术”? 如果 AI 学习了梵高所有的画,然后生成了一幅“梵高风格”的新作,那这幅画的 版权 应该归谁? 是归开发 AI 的公司?归输入提示词(Prompt)的用户?还是归梵高(的后人)? 这目前是法律界最头疼的问题。
最后更新于
