第 24 篇 · 深度学习架构

扩散模型（Diffusion）——图像生成的新王者

前几年，GAN是图像生成的老大。但最近两年，扩散模型异军突起，成了新的王者。

Midjourney、Stable Diffusion、DALL-E 3...这些让你惊艳的AI绘画工具，背后都是扩散模型。

扩散模型的核心思想很简单：先加噪声，再学会去噪。

1
前向扩散：从图片到噪声

想象一下，你有一张清晰的照片，然后一点点往上面加雪花噪声。加到足够多步后，照片就变成了一片纯随机噪声。

前向扩散过程

原始图片

清晰的照片

加一点噪声

有点模糊

再加噪声

越来越模糊

纯随机噪声

完全看不清了

🎯

关键点：前向扩散过程是确定性的、可逆的数学过程，不需要训练模型。

反向去噪

2
反向去噪：从噪声到图片

这才是魔法发生的地方。训练一个神经网络，让它学会从带噪声的图片中预测并去除噪声。从纯随机噪声开始，一步步去噪，最后就能恢复出清晰的图片。

反向去噪过程

纯随机噪声

从这开始

去一步噪声

神经网络预测并去除

再去一步

图片越来越清晰

最后

生成清晰图片

🧠 训练目标

给网络一张加了噪声的图片，让它预测「这张图片里的噪声长什么样」。如果预测准确，就能去除噪声，恢复出原始图片。

3
扩散模型 vs GAN

扩散模型为什么会取代GAN成为主流？因为它解决了GAN的痛点：

Diffusion vs GAN

GAN

难训练

生成器和判别器要互相博弈，平衡很难

模式崩溃

容易重复生成几种图片

扩散模型

易训练

训练目标明确，只需要预测噪声

多样性好

能生成更多样化的图片

4
扩散模型的应用

扩散模型不仅是图像生成，还能做更多：

文生图📝→🖼️

文字生成图片

给定一段描述，扩散模型能生成对应的图片。比如「一只戴着墨镜的猫在海滩上」。

图生图🖼️→🖼️

图片风格转换

把一张素描图转成油画风格，或者把白天改成夜晚。

图像修复🔧

补全缺失部分

给一张只有一半的脸，扩散模型能补全另一半。

视频生成🎬

从文字生成视频

Sora等工具就是扩散模型在视频领域的应用。

总结

🎓 一句话总结

①前向扩散 = 给图片加噪声，直到变成纯随机噪声
②反向去噪 = 训练神经网络预测并去除噪声，从噪声恢复图片
③vs GAN = 扩散模型更稳定、易训练、多样性好
④应用 = 文生图、图生图、图像修复、视频生成

→
下篇预告

第25篇：强化学习(RL)——通过试错学习

AlphaGo击败李世石，用的就是强化学习。强化学习通过「尝试-反馈-调整」的循环，让智能体学会最优策略。它像训练宠物，做对了给奖励，做错了给惩罚。下一篇，我们来聊聊这种「边做边学」的智能。

✏️ 手绘图解 · AI Catch 出品

第 24 篇 / 深度学习架构篇

扩散模型（Diffusion）——图像生成的新王者

1前向扩散：从图片到噪声

2反向去噪：从噪声到图片

3扩散模型 vs GAN

4扩散模型的应用