第 24 篇 · 深度学习架构

扩散模型(Diffusion)——图像生成的新王者

前几年,GAN是图像生成的老大。但最近两年,扩散模型异军突起,成了新的王者。

Midjourney、Stable Diffusion、DALL-E 3...这些让你惊艳的AI绘画工具,背后都是扩散模型。

扩散模型的核心思想很简单:先加噪声,再学会去噪

1
前向扩散:从图片到噪声

想象一下,你有一张清晰的照片,然后一点点往上面加雪花噪声。加到足够多步后,照片就变成了一片纯随机噪声。

前向扩散过程

原始图片

清晰的照片

加一点噪声

有点模糊

再加噪声

越来越模糊

纯随机噪声

完全看不清了

🎯
关键点:前向扩散过程是确定性的、可逆的数学过程,不需要训练模型。
反向去噪

2
反向去噪:从噪声到图片

这才是魔法发生的地方。训练一个神经网络,让它学会从带噪声的图片中预测并去除噪声。从纯随机噪声开始,一步步去噪,最后就能恢复出清晰的图片。

反向去噪过程

纯随机噪声

从这开始

去一步噪声

神经网络预测并去除

再去一步

图片越来越清晰

最后

生成清晰图片

🧠 训练目标

给网络一张加了噪声的图片,让它预测「这张图片里的噪声长什么样」。如果预测准确,就能去除噪声,恢复出原始图片。

3
扩散模型 vs GAN

扩散模型为什么会取代GAN成为主流?因为它解决了GAN的痛点:

Diffusion vs GAN
GAN

难训练

生成器和判别器要互相博弈,平衡很难

模式崩溃

容易重复生成几种图片

扩散模型

易训练

训练目标明确,只需要预测噪声

多样性好

能生成更多样化的图片

4
扩散模型的应用

扩散模型不仅是图像生成,还能做更多:

文生图📝→🖼️

文字生成图片

给定一段描述,扩散模型能生成对应的图片。比如「一只戴着墨镜的猫在海滩上」。
图生图🖼️→🖼️

图片风格转换

把一张素描图转成油画风格,或者把白天改成夜晚。
图像修复🔧

补全缺失部分

给一张只有一半的脸,扩散模型能补全另一半。
视频生成🎬

从文字生成视频

Sora等工具就是扩散模型在视频领域的应用。
总结

🎓 一句话总结

  • 前向扩散 = 给图片加噪声,直到变成纯随机噪声
  • 反向去噪 = 训练神经网络预测并去除噪声,从噪声恢复图片
  • vs GAN = 扩散模型更稳定、易训练、多样性好
  • 应用 = 文生图、图生图、图像修复、视频生成

下篇预告

第25篇:强化学习(RL)——通过试错学习

AlphaGo击败李世石,用的就是强化学习。强化学习通过「尝试-反馈-调整」的循环,让智能体学会最优策略。它像训练宠物,做对了给奖励,做错了给惩罚。下一篇,我们来聊聊这种「边做边学」的智能。

✏️ 手绘图解 · AI Catch 出品

第 24 篇 / 深度学习架构篇