第 24 篇 · 深度学习架构
扩散模型(Diffusion)——图像生成的新王者
前几年,GAN是图像生成的老大。但最近两年,扩散模型异军突起,成了新的王者。
Midjourney、Stable Diffusion、DALL-E 3...这些让你惊艳的AI绘画工具,背后都是扩散模型。
扩散模型的核心思想很简单:先加噪声,再学会去噪。
1前向扩散:从图片到噪声
想象一下,你有一张清晰的照片,然后一点点往上面加雪花噪声。加到足够多步后,照片就变成了一片纯随机噪声。
前向扩散过程
原始图片
清晰的照片
加一点噪声
有点模糊
再加噪声
越来越模糊
纯随机噪声
完全看不清了
🎯
关键点:前向扩散过程是确定性的、可逆的数学过程,不需要训练模型。
反向去噪
2反向去噪:从噪声到图片
这才是魔法发生的地方。训练一个神经网络,让它学会从带噪声的图片中预测并去除噪声。从纯随机噪声开始,一步步去噪,最后就能恢复出清晰的图片。
反向去噪过程
纯随机噪声
从这开始
去一步噪声
神经网络预测并去除
再去一步
图片越来越清晰
最后
生成清晰图片
🧠 训练目标
给网络一张加了噪声的图片,让它预测「这张图片里的噪声长什么样」。如果预测准确,就能去除噪声,恢复出原始图片。
3扩散模型 vs GAN
扩散模型为什么会取代GAN成为主流?因为它解决了GAN的痛点:
Diffusion vs GAN
GAN
难训练
生成器和判别器要互相博弈,平衡很难
模式崩溃
容易重复生成几种图片
扩散模型
易训练
训练目标明确,只需要预测噪声
多样性好
能生成更多样化的图片
4扩散模型的应用
扩散模型不仅是图像生成,还能做更多:
文生图📝→🖼️
文字生成图片
给定一段描述,扩散模型能生成对应的图片。比如「一只戴着墨镜的猫在海滩上」。
图生图🖼️→🖼️
图片风格转换
把一张素描图转成油画风格,或者把白天改成夜晚。
图像修复🔧
补全缺失部分
给一张只有一半的脸,扩散模型能补全另一半。
视频生成🎬
从文字生成视频
Sora等工具就是扩散模型在视频领域的应用。
总结
🎓 一句话总结
- ①前向扩散 = 给图片加噪声,直到变成纯随机噪声
- ②反向去噪 = 训练神经网络预测并去除噪声,从噪声恢复图片
- ③vs GAN = 扩散模型更稳定、易训练、多样性好
- ④应用 = 文生图、图生图、图像修复、视频生成
→下篇预告
第25篇:强化学习(RL)——通过试错学习
AlphaGo击败李世石,用的就是强化学习。强化学习通过「尝试-反馈-调整」的循环,让智能体学会最优策略。它像训练宠物,做对了给奖励,做错了给惩罚。下一篇,我们来聊聊这种「边做边学」的智能。
✏️ 手绘图解 · AI Catch 出品
第 24 篇 / 深度学习架构篇