强化学习(RL)——通过试错学习
之前的机器学习都是在「有标签数据」上训练——告诉模型输入是什么,输出是什么。但现实世界很多时候没有标准答案。
你教小孩骑自行车,不会先给他一套理论课,而是让他骑上去,摔倒了就告诉他「刚才那样不对,应该这样」。
强化学习就是这样:通过尝试和反馈来学习。
1强化学习的核心要素
强化学习有5个关键概念,理解了它们,就理解了RL:
学习者和决策者
比如:下围棋的AI、控制机器人的程序
智能体所处的世界
比如:围棋棋盘、机器人所在的真实空间
当前情况
比如:棋盘上每个位置有什么、机器人的位置和姿态
智能体能做的事
比如:在棋盘某个位置落子、机器人向左/右/前/后移动
反馈信号
比如:赢了+1分,输了-1分;机器人走对了+0.1,撞墙了-1
2强化学习的循环
强化学习的过程就是一个闭环:智能体观察状态,选择动作,环境给出奖励和下一个状态,智能体根据反馈调整策略。
智能体观察状态
智能体选择动作
环境执行动作
给出奖励 + 新状态
智能体根据反馈调整策略
3探索 vs 利用:两难选择
强化学习面临一个经典困境:是继续用已经知道有效的策略(利用),还是尝试新的可能更好的策略(探索)?
使用已知的最佳策略
优点:稳定、能获得确定的奖励
缺点:可能错过更好的策略
尝试新的动作组合
优点:可能发现更好的策略
缺点:风险高,可能获得低奖励
类比理解:你去餐馆吃饭,有一道菜你每次都点,味道不错(利用)。但也许菜单上还有更好吃的菜,只是你没试过(探索)。太保守就吃不到新花样,太冒险可能吃到难吃的。
4强化学习的应用
强化学习的应用非常广泛:
围棋AI
机器人
电子游戏
个性化推荐
🎓 一句话总结
- ①核心要素 = 智能体、环境、状态、动作、奖励
- ②学习循环 = 观察→动作→反馈→调整,不断迭代
- ③探索 vs 利用 = 在已知最好和新尝试之间权衡
- ④应用 = AlphaGo、机器人控制、游戏AI、推荐系统
→下篇预告
第26篇:深度强化学习(DRL)——神经网络 + 强化学习
单纯的强化学习需要手工设计特征,而深度强化学习用神经网络来学习状态表示和策略。DQN、PPO、A3C这些算法都是DRL的经典代表。下一篇,我们来聊聊如何把强化学习与深度学习结合。
✏️ 手绘图解 · AI Catch 出品
第 25 篇 / 深度学习架构篇