第 25 篇 · 深度学习架构

强化学习（RL）——通过试错学习

之前的机器学习都是在「有标签数据」上训练——告诉模型输入是什么，输出是什么。但现实世界很多时候没有标准答案。

你教小孩骑自行车，不会先给他一套理论课，而是让他骑上去，摔倒了就告诉他「刚才那样不对，应该这样」。

强化学习就是这样：通过尝试和反馈来学习。

1
强化学习的核心要素

强化学习有5个关键概念，理解了它们，就理解了RL：

智能体 (Agent)

学习者和决策者

比如：下围棋的AI、控制机器人的程序

环境 (Environment)

智能体所处的世界

比如：围棋棋盘、机器人所在的真实空间

状态 (State)

当前情况

比如：棋盘上每个位置有什么、机器人的位置和姿态

动作 (Action)

智能体能做的事

比如：在棋盘某个位置落子、机器人向左/右/前/后移动

奖励 (Reward)

反馈信号

比如：赢了+1分，输了-1分；机器人走对了+0.1，撞墙了-1

学习循环

2
强化学习的循环

强化学习的过程就是一个闭环：智能体观察状态，选择动作，环境给出奖励和下一个状态，智能体根据反馈调整策略。

强化学习的交互循环

智能体观察状态

智能体选择动作

环境执行动作

给出奖励 + 新状态

智能体根据反馈调整策略

循环继续...

🐾

类比理解：就像训练宠物。做对了（比如握手），给奖励（小零食）；做错了（比如乱咬），给惩罚（大声说「不」）。宠物会记住什么行为会得到奖励，下次就更多做这个行为。

3
探索 vs 利用：两难选择

强化学习面临一个经典困境：是继续用已经知道有效的策略（利用），还是尝试新的可能更好的策略（探索）？

探索 vs 利用

利用

使用已知的最佳策略

优点：稳定、能获得确定的奖励

缺点：可能错过更好的策略

探索

尝试新的动作组合

优点：可能发现更好的策略

缺点：风险高，可能获得低奖励

类比理解：你去餐馆吃饭，有一道菜你每次都点，味道不错（利用）。但也许菜单上还有更好吃的菜，只是你没试过（探索）。太保守就吃不到新花样，太冒险可能吃到难吃的。

4
强化学习的应用

强化学习的应用非常广泛：

AlphaGo🎯

围棋AI

通过自我对弈，学会下围棋，击败人类世界冠军。

机器人控制🤖

机器人

让机器人学会走路、抓取物体、甚至做后空翻。

游戏AI🎮

电子游戏

在Dota 2、星际争霸等复杂游戏中击败人类职业选手。

推荐系统📱

个性化推荐

根据用户行为不断优化推荐策略，提高点击率。

总结

🎓 一句话总结

①核心要素 = 智能体、环境、状态、动作、奖励
②学习循环 = 观察→动作→反馈→调整，不断迭代
③探索 vs 利用 = 在已知最好和新尝试之间权衡
④应用 = AlphaGo、机器人控制、游戏AI、推荐系统

→
下篇预告

第26篇：深度强化学习(DRL)——神经网络 + 强化学习

单纯的强化学习需要手工设计特征，而深度强化学习用神经网络来学习状态表示和策略。DQN、PPO、A3C这些算法都是DRL的经典代表。下一篇，我们来聊聊如何把强化学习与深度学习结合。

上一篇：扩散模型基础下一篇：深度强化学习基础

✏️ 手绘图解 · AI Catch 出品

第 25 篇 / 深度学习架构篇

强化学习（RL）——通过试错学习

1强化学习的核心要素

2强化学习的循环

3探索 vs 利用：两难选择

4强化学习的应用