第 23 篇 · 深度学习架构

生成对抗网络（GAN）——AI的左右互搏

2014年，Ian Goodfellow提出了一种奇怪的架构：两个神经网络互相PK。一个负责造假，一个负责打假。

这就是GAN（生成对抗网络）。它像武侠小说里的「左右互搏」，两个对手越打越强，最后生成器能造出以假乱真的内容：图片、视频、音乐，甚至人脸。

1
生成器 vs 判别器

GAN由两个网络组成，它们的目标截然相反：

GAN的对抗过程

生成器 (Generator)

造假者

目标：生成尽可能真实的内容，骗过判别器

输入：随机噪声

输出：伪造的图片/文本

判别器 (Discriminator)

打假者

目标：区分真实和伪造内容，不被骗

输入：一张图片（可能是真实的也可能是假的）

输出：真/假的概率

两者互相博弈，共同进化

⚔️

类比理解：就像造假币的（生成器）和验钞的（判别器）在博弈。造假币的技术越来越高明，验钞的手段也越来越精准。最后，假币真的可能以假乱真。

训练过程

2
GAN的训练：两步走

训练GAN时，每次迭代要分两步：

第一步：训练判别器

1. 用真实图片训练判别器，让它学会「这是真图」

2. 用生成器的假图训练判别器，让它学会「这是假图」

目标：提高判别准确率

第二步：训练生成器

固定判别器的参数

生成器生成假图，看判别器能不能识别出来

目标：让判别器把假图当成真图

3
GAN能做什么？

GAN的应用非常广泛，几乎覆盖所有生成式任务：

图像生成🖼️

创造不存在的图片

生成人脸、风景、动漫角色，甚至可以根据文字描述生成图片。

图像修复🔧

修复破损的图片

给黑白照片上色、去除图片上的水印、补全缺失的部分。

风格迁移🎨

把A图转换成B图的风格

把普通照片变成梵高风格、把马变成斑马、把白天改成夜晚。

数据增强📊

生成更多训练数据

医疗影像数据稀缺，用GAN生成更多样本帮助模型训练。

4
GAN的挑战：难训练

GAN虽然强大，但训练起来非常困难：

模式崩溃 (Mode Collapse)

生成器学会了生成几种非常逼真的图片，就只重复生成这几种，失去了多样性。

训练不稳定

生成器和判别器的学习节奏很难平衡。如果一方太强，另一方就学不到东西。

类比理解：就像两个对手PK，如果一方太强，另一方直接放弃比赛。要让它们「旗鼓相当」地博弈，需要很高的技巧。

总结

🎓 一句话总结

①GAN组成 = 生成器（造假）+ 判别器（打假）
②训练过程 = 两步走：先训练判别器，再训练生成器
③应用 = 图像生成、图像修复、风格迁移、数据增强
④挑战 = 模式崩溃、训练不稳定、难以调参

→
下篇预告

第24篇：扩散模型(Diffusion)——图像生成的新王者

Midjourney、Stable Diffusion这些AI绘画工具的背后，都是扩散模型。它用「去噪」的思想生成高质量图片。相比GAN，它更稳定、更容易训练。下一篇，我们来揭秘这个新晋王者。

上一篇：Transformer基础下一篇：扩散模型基础

✏️ 手绘图解 · AI Catch 出品

第 23 篇 / 深度学习架构篇