第 26 篇 · 深度学习架构

深度强化学习(DRL)——神经网络 + 强化学习

传统的强化学习(比如Q学习)用一个表格记录每个状态下每个动作的价值。但当状态空间很大时,表格就存不下了。

想象一下,用强化学习玩Atari游戏。屏幕是像素矩阵,状态空间是所有可能的像素组合——这是一个天文数字。

深度强化学习的方案:用神经网络来近似这个表格

1
DQN:深度Q网络

DQN(Deep Q-Network)是深度强化学习的里程碑之作。它用一个CNN来拟合Q函数,输入是屏幕像素,输出是每个动作的Q值。

DQN的结构

输入:屏幕像素

比如84×84的彩色图像

CNN提取特征

卷积层→池化层→全连接层

输出:每个动作的Q值

[左移Q值, 右移Q值, 上移Q值, 下移Q值]

🎯
关键创新:DQN引入了两个技巧来稳定训练:经验回放和目标网络。
两个关键技巧

2
DQN的两大法宝

经验回放

解决数据关联问题

每次训练从历史经验中随机采样,而不是连续采样,打破数据之间的时间关联性

类比:复习考试时随机抽题目,而不是按章节顺序做

目标网络

稳定训练目标

保持一个「冻结」的目标网络,定期更新主网络的权重到目标网络

类比:射击时,枪的准星会晃,但你记的是准星相对稳定时的位置

3
其他深度强化学习算法

DQN之后,出现了很多改进算法:

Double DQN🎯

减少过估计

DQN倾向于高估Q值,Double DQN用两个网络分别选择动作和评估Q值,减少过估计。
Dueling DQN⚔️

分离价值和优势

Q函数分解为状态价值和动作优势,更好地表示不同动作的相对好坏。
PPO🚀

近端策略优化

限制策略更新幅度,既保证足够学习又不至于破坏已有策略,稳定且高效。
A3C👥

异步优势演员-评论家

多个智能体并行探索,加速训练并增加经验多样性。

4
深度强化学习的应用

DRL能处理更复杂的场景:

Atari游戏

DQN能在多种Atari游戏中达到甚至超越人类水平

围棋

AlphaGo Zero用深度强化学习从零开始学会下围棋

机器人控制

让机器人学会复杂的运动技能(跑、跳、抓取)

自动驾驶

在虚拟环境中训练驾驶策略,再迁移到真实世界

总结

🎓 一句话总结

  • DQN = 用CNN拟合Q函数,能处理高维状态(如图像)
  • 经验回放 = 随机采样历史经验,打破数据关联
  • 目标网络 = 冻结网络参数,稳定训练目标
  • 其他算法 = Double DQN、Dueling DQN、PPO、A3C

下篇预告

第27篇:注意力机制详解——让模型学会「关注重点」

注意力机制是Transformer的核心,它让模型能自动找到输入中最相关的部分。理解了注意力机制,你就理解了现代NLP的半壁江山。下一篇,我们来深入拆解注意力机制的数学原理和直观理解。

✏️ 手绘图解 · AI Catch 出品

第 26 篇 / 深度学习架构篇