第 25 篇 · 深度学习架构

强化学习(RL)——通过试错学习

之前的机器学习都是在「有标签数据」上训练——告诉模型输入是什么,输出是什么。但现实世界很多时候没有标准答案。

你教小孩骑自行车,不会先给他一套理论课,而是让他骑上去,摔倒了就告诉他「刚才那样不对,应该这样」。

强化学习就是这样:通过尝试和反馈来学习

1
强化学习的核心要素

强化学习有5个关键概念,理解了它们,就理解了RL:

智能体 (Agent)

学习者和决策者

比如:下围棋的AI、控制机器人的程序

环境 (Environment)

智能体所处的世界

比如:围棋棋盘、机器人所在的真实空间

状态 (State)

当前情况

比如:棋盘上每个位置有什么、机器人的位置和姿态

动作 (Action)

智能体能做的事

比如:在棋盘某个位置落子、机器人向左/右/前/后移动

奖励 (Reward)

反馈信号

比如:赢了+1分,输了-1分;机器人走对了+0.1,撞墙了-1

学习循环

2
强化学习的循环

强化学习的过程就是一个闭环:智能体观察状态,选择动作,环境给出奖励和下一个状态,智能体根据反馈调整策略。

强化学习的交互循环

智能体观察状态

智能体选择动作

环境执行动作

给出奖励 + 新状态

智能体根据反馈调整策略

循环继续...
🐾
类比理解:就像训练宠物。做对了(比如握手),给奖励(小零食);做错了(比如乱咬),给惩罚(大声说「不」)。宠物会记住什么行为会得到奖励,下次就更多做这个行为。

3
探索 vs 利用:两难选择

强化学习面临一个经典困境:是继续用已经知道有效的策略(利用),还是尝试新的可能更好的策略(探索)?

探索 vs 利用
利用

使用已知的最佳策略

优点:稳定、能获得确定的奖励

缺点:可能错过更好的策略

探索

尝试新的动作组合

优点:可能发现更好的策略

缺点:风险高,可能获得低奖励

类比理解:你去餐馆吃饭,有一道菜你每次都点,味道不错(利用)。但也许菜单上还有更好吃的菜,只是你没试过(探索)。太保守就吃不到新花样,太冒险可能吃到难吃的。

4
强化学习的应用

强化学习的应用非常广泛:

AlphaGo🎯

围棋AI

通过自我对弈,学会下围棋,击败人类世界冠军。
机器人控制🤖

机器人

让机器人学会走路、抓取物体、甚至做后空翻。
游戏AI🎮

电子游戏

在Dota 2、星际争霸等复杂游戏中击败人类职业选手。
推荐系统📱

个性化推荐

根据用户行为不断优化推荐策略,提高点击率。
总结

🎓 一句话总结

  • 核心要素 = 智能体、环境、状态、动作、奖励
  • 学习循环 = 观察→动作→反馈→调整,不断迭代
  • 探索 vs 利用 = 在已知最好和新尝试之间权衡
  • 应用 = AlphaGo、机器人控制、游戏AI、推荐系统

下篇预告

第26篇:深度强化学习(DRL)——神经网络 + 强化学习

单纯的强化学习需要手工设计特征,而深度强化学习用神经网络来学习状态表示和策略。DQN、PPO、A3C这些算法都是DRL的经典代表。下一篇,我们来聊聊如何把强化学习与深度学习结合。

✏️ 手绘图解 · AI Catch 出品

第 25 篇 / 深度学习架构篇