9.2 图像生成技术
AI 画画不是在“拼贴素材”,而是在“雕刻噪点”。无中生有,始于噪点。
9.2.1 以前的 AI 画画:像拼贴
在 2022 年之前,AI 主要是靠 GAN(生成对抗网络) 画画。
简单说,就是让两个 AI 打架:
骗子(生成器):拼命造假画。
警察(判别器):拼命抓假画。
打到最后,骗子技艺大涨,连警察都分不清真假了。
但这有个问题:GAN 生成的图,往往细节很假,而且很难控制内容。
9.2.2 现在的 AI 画画:扩散模型
如果将视角拉回技术演进的时间线,扩散模型并非在 2022 年凭空产生。它的学术研究源于更早的奠基:
理论提出:2015年左右扩散概念初步诞生,随后在 2020 年的经典论文DDPM(Denoising Diffusion Probabilistic Models)中得到了验证,证明了从纯噪声中分步还原出高质量图像的潜力。
算力破局:在 2021-2022 年间,潜在扩散模型(LDM,Latent Diffusion Models) 巧妙地将降噪过程转移到了压缩的“潜在空间”中,大幅缩减了对显卡算力的需求。
产品爆发:到了 2022 年,基于 LDM 架构的Stable Diffusion宣布开源,同时商业工具Midjourney 横空出世,正式引爆了整个 AIGC 图像生成的产品生态。
它们用了一种全新的魔法,你可以把它想象成 “修复文物” 的过程,但却是倒着来的:
加噪(破坏):把一张《蒙娜丽莎》一点点泼上墨水(噪点),直到它变成一张完全看不清的雪花屏。
去噪(修复):AI 学习这个过程的逆过程。
给它一张雪花屏(随机噪声)。
告诉它:“这就叫 '一只骑摩托的猫' 的雪花屏”。
AI 开始一点点把噪点擦掉。
奇迹发生了!随着噪点消失,一只猫的轮廓浮现出来,然后是毛发,然后是摩托车...
9.2.3 为什么 AI 怕画手?
很多人发现,AI 画的脸美若天仙,但手经常是 6 根指头,或者长得像爪子。
这是因为在扩散模型的学习素材里,人脸通常是很清晰、很标准的。
但在照片里,手经常是模糊的、遮挡的、奇形怪状的(拿杯子、插口袋)。
AI 没学明白手的解剖结构,它只是在 “模仿像素的排列”。它觉得这里应该有一堆肉色的东西,至于是不是 5 根,它不太在乎。
(注:近两年的新版本在手部细节上已有明显改善,但复杂姿态下仍可能出现失真)。
9.2.4 思考题
AI 生成的画,算不算 “艺术”?
如果 AI 学习了梵高所有的画,然后生成了一幅“梵高风格”的新作,那这幅画的 版权 应该归谁?
是归开发 AI 的公司?归输入提示词(Prompt)的用户?还是归梵高(的后人)?
这目前是法律界最头疼的问题。
最后更新于
