第 23 篇 · 深度学习架构
生成对抗网络(GAN)——AI的左右互搏
2014年,Ian Goodfellow提出了一种奇怪的架构:两个神经网络互相PK。一个负责造假,一个负责打假。
这就是GAN(生成对抗网络)。它像武侠小说里的「左右互搏」,两个对手越打越强,最后生成器能造出以假乱真的内容:图片、视频、音乐,甚至人脸。
1生成器 vs 判别器
GAN由两个网络组成,它们的目标截然相反:
GAN的对抗过程
生成器 (Generator)
造假者
目标:生成尽可能真实的内容,骗过判别器
输入:随机噪声
输出:伪造的图片/文本
判别器 (Discriminator)
打假者
目标:区分真实和伪造内容,不被骗
输入:一张图片(可能是真实的也可能是假的)
输出:真/假的概率
两者互相博弈,共同进化
⚔️
类比理解:就像造假币的(生成器)和验钞的(判别器)在博弈。造假币的技术越来越高明,验钞的手段也越来越精准。最后,假币真的可能以假乱真。
训练过程
2GAN的训练:两步走
训练GAN时,每次迭代要分两步:
第一步:训练判别器
1. 用真实图片训练判别器,让它学会「这是真图」
2. 用生成器的假图训练判别器,让它学会「这是假图」
目标:提高判别准确率
第二步:训练生成器
固定判别器的参数
生成器生成假图,看判别器能不能识别出来
目标:让判别器把假图当成真图
3GAN能做什么?
GAN的应用非常广泛,几乎覆盖所有生成式任务:
图像生成🖼️
创造不存在的图片
生成人脸、风景、动漫角色,甚至可以根据文字描述生成图片。
图像修复🔧
修复破损的图片
给黑白照片上色、去除图片上的水印、补全缺失的部分。
风格迁移🎨
把A图转换成B图的风格
把普通照片变成梵高风格、把马变成斑马、把白天改成夜晚。
数据增强📊
生成更多训练数据
医疗影像数据稀缺,用GAN生成更多样本帮助模型训练。
4GAN的挑战:难训练
GAN虽然强大,但训练起来非常困难:
模式崩溃 (Mode Collapse)
生成器学会了生成几种非常逼真的图片,就只重复生成这几种,失去了多样性。
训练不稳定
生成器和判别器的学习节奏很难平衡。如果一方太强,另一方就学不到东西。
类比理解:就像两个对手PK,如果一方太强,另一方直接放弃比赛。要让它们「旗鼓相当」地博弈,需要很高的技巧。
总结
🎓 一句话总结
- ①GAN组成 = 生成器(造假)+ 判别器(打假)
- ②训练过程 = 两步走:先训练判别器,再训练生成器
- ③应用 = 图像生成、图像修复、风格迁移、数据增强
- ④挑战 = 模式崩溃、训练不稳定、难以调参
→下篇预告
第24篇:扩散模型(Diffusion)——图像生成的新王者
Midjourney、Stable Diffusion这些AI绘画工具的背后,都是扩散模型。它用「去噪」的思想生成高质量图片。相比GAN,它更稳定、更容易训练。下一篇,我们来揭秘这个新晋王者。
✏️ 手绘图解 · AI Catch 出品
第 23 篇 / 深度学习架构篇