第 23 篇 · 深度学习架构

生成对抗网络(GAN)——AI的左右互搏

2014年,Ian Goodfellow提出了一种奇怪的架构:两个神经网络互相PK。一个负责造假,一个负责打假。

这就是GAN(生成对抗网络)。它像武侠小说里的「左右互搏」,两个对手越打越强,最后生成器能造出以假乱真的内容:图片、视频、音乐,甚至人脸。

1
生成器 vs 判别器

GAN由两个网络组成,它们的目标截然相反:

GAN的对抗过程
生成器 (Generator)

造假者

目标:生成尽可能真实的内容,骗过判别器

输入:随机噪声

输出:伪造的图片/文本

判别器 (Discriminator)

打假者

目标:区分真实和伪造内容,不被骗

输入:一张图片(可能是真实的也可能是假的)

输出:真/假的概率

两者互相博弈,共同进化

⚔️
类比理解:就像造假币的(生成器)和验钞的(判别器)在博弈。造假币的技术越来越高明,验钞的手段也越来越精准。最后,假币真的可能以假乱真。
训练过程

2
GAN的训练:两步走

训练GAN时,每次迭代要分两步:

第一步:训练判别器

1. 用真实图片训练判别器,让它学会「这是真图」

2. 用生成器的假图训练判别器,让它学会「这是假图」

目标:提高判别准确率

第二步:训练生成器

固定判别器的参数

生成器生成假图,看判别器能不能识别出来

目标:让判别器把假图当成真图

3
GAN能做什么?

GAN的应用非常广泛,几乎覆盖所有生成式任务:

图像生成🖼️

创造不存在的图片

生成人脸、风景、动漫角色,甚至可以根据文字描述生成图片。
图像修复🔧

修复破损的图片

给黑白照片上色、去除图片上的水印、补全缺失的部分。
风格迁移🎨

把A图转换成B图的风格

把普通照片变成梵高风格、把马变成斑马、把白天改成夜晚。
数据增强📊

生成更多训练数据

医疗影像数据稀缺,用GAN生成更多样本帮助模型训练。

4
GAN的挑战:难训练

GAN虽然强大,但训练起来非常困难:

模式崩溃 (Mode Collapse)

生成器学会了生成几种非常逼真的图片,就只重复生成这几种,失去了多样性。

训练不稳定

生成器和判别器的学习节奏很难平衡。如果一方太强,另一方就学不到东西。

类比理解:就像两个对手PK,如果一方太强,另一方直接放弃比赛。要让它们「旗鼓相当」地博弈,需要很高的技巧。

总结

🎓 一句话总结

  • GAN组成 = 生成器(造假)+ 判别器(打假)
  • 训练过程 = 两步走:先训练判别器,再训练生成器
  • 应用 = 图像生成、图像修复、风格迁移、数据增强
  • 挑战 = 模式崩溃、训练不稳定、难以调参

下篇预告

第24篇:扩散模型(Diffusion)——图像生成的新王者

Midjourney、Stable Diffusion这些AI绘画工具的背后,都是扩散模型。它用「去噪」的思想生成高质量图片。相比GAN,它更稳定、更容易训练。下一篇,我们来揭秘这个新晋王者。

✏️ 手绘图解 · AI Catch 出品

第 23 篇 / 深度学习架构篇