# 9.2 图像生成与扩散模型

> AI 画画不是在“拼贴素材”，而是在“雕刻噪点”。无中生有，始于噪点。

## 9.2.1 以前的 AI 画画：像拼贴

在 2022 年之前，AI 主要是靠 **GAN（生成对抗网络）** 画画。

简单说，就是让两个 AI 打架：

* **骗子（生成器）**：拼命造假画。
* **警察（判别器）**：拼命抓假画。

打到最后，骗子技艺大涨，连警察都分不清真假了。

但这有个问题：GAN 生成的图，往往细节很假，而且很难控制内容。

## 9.2.2 现在的 AI 画画：扩散模型

如果将视角拉回技术演进的时间线，扩散模型并非在 2022 年凭空产生。它的学术研究源于更早的奠基：

1. **理论提出**：2015年左右扩散概念初步诞生，随后在 2020 年的经典论文**DDPM**（Denoising Diffusion Probabilistic Models）中得到了验证，证明了从纯噪声中分步还原出高质量图像的潜力。
2. **算力破局**：在 2021-2022 年间，**潜在扩散模型（LDM，Latent Diffusion Models）** 巧妙地将降噪过程转移到了压缩的“潜在空间”中，大幅缩减了对显卡算力的需求。
3. **产品爆发**：到了 2022 年，基于 LDM 架构的**Stable Diffusion**宣布开源，同时商业工具**Midjourney** 横空出世，正式引爆了整个 AIGC 图像生成的产品生态。

它们用了一种全新的魔法，你可以把它想象成 **“修复文物”** 的过程，但却是倒着来的：

1. **加噪（破坏）**：把一张《蒙娜丽莎》一点点泼上墨水（噪点），直到它变成一张完全看不清的雪花屏。
2. **去噪（修复）**：AI 学习这个过程的逆过程。
   * 给它一张雪花屏（随机噪声）。
   * 告诉它：“这就叫 '一只骑摩托的猫' 的雪花屏”。
   * AI 开始一点点把噪点擦掉。
   * 奇迹发生了！随着噪点消失，一只猫的轮廓浮现出来，然后是毛发，然后是摩托车...

```mermaid
graph LR
    A["清晰图像<br/>（如《蒙娜丽莎》）"] -->|"① 前向：逐步加噪"| N["纯随机噪声<br/>（雪花屏）"]
    N -->|"② 反向：逐步去噪<br/>（由文本提示引导）"| G["生成的新图像<br/>（一只骑摩托的猫）"]
```

图 9-1：扩散模型的「加噪—去噪」过程。模型在训练时学习加噪的逆过程；生成时便能在文本提示的引导下，从纯随机噪声一步步还原出图像。

## 9.2.3 为什么 AI 怕画手？

很多人发现，AI 画的脸美若天仙，但手经常是 6 根指头，或者长得像爪子。

这是因为在扩散模型的学习素材里，人脸通常是很清晰、很标准的。

但在照片里，手经常是模糊的、遮挡的、奇形怪状的（拿杯子、插口袋）。

AI 没学明白手的解剖结构，它只是在 **“模仿像素的排列”**。它觉得这里应该有一堆肉色的东西，至于是不是 5 根，它不太在乎。

（注：近两年的新版本在手部细节上已有明显改善，但复杂姿态下仍可能出现失真）。

## 9.2.4 思考题

AI 生成的画，算不算 **“艺术”**？

如果 AI 学习了梵高所有的画，然后生成了一幅“梵高风格”的新作，那这幅画的 **版权** 应该归谁？

是归开发 AI 的公司？归输入提示词（Prompt）的用户？还是归梵高（的后人）？

这目前是法律界最头疼的问题。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/ai_beginner_guide/di-er-bu-fen-he-xin-ji-shu-jie-xi/09_multimodal_genai/9.2_image_generation.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.