第 26 篇 · 深度学习架构
深度强化学习(DRL)——神经网络 + 强化学习
传统的强化学习(比如Q学习)用一个表格记录每个状态下每个动作的价值。但当状态空间很大时,表格就存不下了。
想象一下,用强化学习玩Atari游戏。屏幕是像素矩阵,状态空间是所有可能的像素组合——这是一个天文数字。
深度强化学习的方案:用神经网络来近似这个表格。
1DQN:深度Q网络
DQN(Deep Q-Network)是深度强化学习的里程碑之作。它用一个CNN来拟合Q函数,输入是屏幕像素,输出是每个动作的Q值。
DQN的结构
输入:屏幕像素
比如84×84的彩色图像
CNN提取特征
卷积层→池化层→全连接层
输出:每个动作的Q值
[左移Q值, 右移Q值, 上移Q值, 下移Q值]
🎯
关键创新:DQN引入了两个技巧来稳定训练:经验回放和目标网络。
两个关键技巧
2DQN的两大法宝
经验回放
解决数据关联问题
每次训练从历史经验中随机采样,而不是连续采样,打破数据之间的时间关联性
类比:复习考试时随机抽题目,而不是按章节顺序做
目标网络
稳定训练目标
保持一个「冻结」的目标网络,定期更新主网络的权重到目标网络
类比:射击时,枪的准星会晃,但你记的是准星相对稳定时的位置
3其他深度强化学习算法
DQN之后,出现了很多改进算法:
Double DQN🎯
减少过估计
DQN倾向于高估Q值,Double DQN用两个网络分别选择动作和评估Q值,减少过估计。
Dueling DQN⚔️
分离价值和优势
Q函数分解为状态价值和动作优势,更好地表示不同动作的相对好坏。
PPO🚀
近端策略优化
限制策略更新幅度,既保证足够学习又不至于破坏已有策略,稳定且高效。
A3C👥
异步优势演员-评论家
多个智能体并行探索,加速训练并增加经验多样性。
4深度强化学习的应用
DRL能处理更复杂的场景:
Atari游戏
DQN能在多种Atari游戏中达到甚至超越人类水平
围棋
AlphaGo Zero用深度强化学习从零开始学会下围棋
机器人控制
让机器人学会复杂的运动技能(跑、跳、抓取)
自动驾驶
在虚拟环境中训练驾驶策略,再迁移到真实世界
总结
🎓 一句话总结
- ①DQN = 用CNN拟合Q函数,能处理高维状态(如图像)
- ②经验回放 = 随机采样历史经验,打破数据关联
- ③目标网络 = 冻结网络参数,稳定训练目标
- ④其他算法 = Double DQN、Dueling DQN、PPO、A3C
→下篇预告
第27篇:注意力机制详解——让模型学会「关注重点」
注意力机制是Transformer的核心,它让模型能自动找到输入中最相关的部分。理解了注意力机制,你就理解了现代NLP的半壁江山。下一篇,我们来深入拆解注意力机制的数学原理和直观理解。
✏️ 手绘图解 · AI Catch 出品
第 26 篇 / 深度学习架构篇