9.2 图像生成技术

AI 画画不是在“拼贴素材”,而是在“雕刻噪点”。无中生有,始于噪点。

9.2.1 以前的 AI 画画:像拼贴

在 2022 年之前,AI 主要是靠 GAN(生成对抗网络) 画画。

简单说,就是让两个 AI 打架:

  • 骗子(生成器):拼命造假画。

  • 警察(判别器):拼命抓假画。

打到最后,骗子技艺大涨,连警察都分不清真假了。

但这有个问题:GAN 生成的图,往往细节很假,而且很难控制内容。

9.2.2 现在的 AI 画画:扩散模型

如果将视角拉回技术演进的时间线,扩散模型并非在 2022 年凭空产生。它的学术研究源于更早的奠基:

  1. 理论提出:2015年左右扩散概念初步诞生,随后在 2020 年的经典论文DDPM(Denoising Diffusion Probabilistic Models)中得到了验证,证明了从纯噪声中分步还原出高质量图像的潜力。

  2. 算力破局:在 2021-2022 年间,潜在扩散模型(LDM,Latent Diffusion Models) 巧妙地将降噪过程转移到了压缩的“潜在空间”中,大幅缩减了对显卡算力的需求。

  3. 产品爆发:到了 2022 年,基于 LDM 架构的Stable Diffusion宣布开源,同时商业工具Midjourney 横空出世,正式引爆了整个 AIGC 图像生成的产品生态。

它们用了一种全新的魔法,你可以把它想象成 “修复文物” 的过程,但却是倒着来的:

  1. 加噪(破坏):把一张《蒙娜丽莎》一点点泼上墨水(噪点),直到它变成一张完全看不清的雪花屏。

  2. 去噪(修复):AI 学习这个过程的逆过程。

    • 给它一张雪花屏(随机噪声)。

    • 告诉它:“这就叫 '一只骑摩托的猫' 的雪花屏”。

    • AI 开始一点点把噪点擦掉。

    • 奇迹发生了!随着噪点消失,一只猫的轮廓浮现出来,然后是毛发,然后是摩托车...

9.2.3 为什么 AI 怕画手?

很多人发现,AI 画的脸美若天仙,但手经常是 6 根指头,或者长得像爪子。

这是因为在扩散模型的学习素材里,人脸通常是很清晰、很标准的。

但在照片里,手经常是模糊的、遮挡的、奇形怪状的(拿杯子、插口袋)。

AI 没学明白手的解剖结构,它只是在 “模仿像素的排列”。它觉得这里应该有一堆肉色的东西,至于是不是 5 根,它不太在乎。

(注:近两年的新版本在手部细节上已有明显改善,但复杂姿态下仍可能出现失真)。

9.2.4 思考题

AI 生成的画,算不算 “艺术”

如果 AI 学习了梵高所有的画,然后生成了一幅“梵高风格”的新作,那这幅画的 版权 应该归谁?

是归开发 AI 的公司?归输入提示词(Prompt)的用户?还是归梵高(的后人)?

这目前是法律界最头疼的问题。

最后更新于