第 26 篇 · 深度学习架构

深度强化学习（DRL）——神经网络 + 强化学习

传统的强化学习（比如Q学习）用一个表格记录每个状态下每个动作的价值。但当状态空间很大时，表格就存不下了。

想象一下，用强化学习玩Atari游戏。屏幕是像素矩阵，状态空间是所有可能的像素组合——这是一个天文数字。

深度强化学习的方案：用神经网络来近似这个表格。

1
DQN：深度Q网络

DQN（Deep Q-Network）是深度强化学习的里程碑之作。它用一个CNN来拟合Q函数，输入是屏幕像素，输出是每个动作的Q值。

DQN的结构

输入：屏幕像素

比如84×84的彩色图像

CNN提取特征

卷积层→池化层→全连接层

输出：每个动作的Q值

[左移Q值, 右移Q值, 上移Q值, 下移Q值]

🎯

关键创新：DQN引入了两个技巧来稳定训练：经验回放和目标网络。

两个关键技巧

2
DQN的两大法宝

经验回放

解决数据关联问题

每次训练从历史经验中随机采样，而不是连续采样，打破数据之间的时间关联性

类比：复习考试时随机抽题目，而不是按章节顺序做

目标网络

稳定训练目标

保持一个「冻结」的目标网络，定期更新主网络的权重到目标网络

类比：射击时，枪的准星会晃，但你记的是准星相对稳定时的位置

3
其他深度强化学习算法

DQN之后，出现了很多改进算法：

Double DQN🎯

减少过估计

DQN倾向于高估Q值，Double DQN用两个网络分别选择动作和评估Q值，减少过估计。

Dueling DQN⚔️

分离价值和优势

Q函数分解为状态价值和动作优势，更好地表示不同动作的相对好坏。

PPO🚀

近端策略优化

限制策略更新幅度，既保证足够学习又不至于破坏已有策略，稳定且高效。

A3C👥

异步优势演员-评论家

多个智能体并行探索，加速训练并增加经验多样性。

4
深度强化学习的应用

DRL能处理更复杂的场景：

Atari游戏

DQN能在多种Atari游戏中达到甚至超越人类水平

围棋

AlphaGo Zero用深度强化学习从零开始学会下围棋

机器人控制

让机器人学会复杂的运动技能（跑、跳、抓取）

自动驾驶

在虚拟环境中训练驾驶策略，再迁移到真实世界

总结

🎓 一句话总结

①DQN = 用CNN拟合Q函数，能处理高维状态（如图像）
②经验回放 = 随机采样历史经验，打破数据关联
③目标网络 = 冻结网络参数，稳定训练目标
④其他算法 = Double DQN、Dueling DQN、PPO、A3C

→
下篇预告

第27篇：注意力机制详解——让模型学会「关注重点」

注意力机制是Transformer的核心，它让模型能自动找到输入中最相关的部分。理解了注意力机制，你就理解了现代NLP的半壁江山。下一篇，我们来深入拆解注意力机制的数学原理和直观理解。

上一篇：强化学习基础下一篇：注意力机制详解

✏️ 手绘图解 · AI Catch 出品

第 26 篇 / 深度学习架构篇

深度强化学习（DRL）——神经网络 + 强化学习

1DQN：深度Q网络

2DQN的两大法宝

3其他深度强化学习算法