RLHF:如何让AI听人话
用人类反馈训练AI,让它说"人话"
ChatGPT为什么这么好用?为什么它能理解你的意图,给出有礼貌的回答,而且很少说冒犯性的话?
答案很大程度上是一个技术:RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。
预训练的大模型很聪明,但它不一定会"好好说话"。它可能回答得粗鲁、不安全、不符合人类偏好。RLHF就是用人类的反馈来"调教"AI,让它学会说"人话"。
1预训练模型的"问题"
预训练的大模型已经学会了语言的模式,但还不够"好用"。
问题1:不理解"好回答"的标准
预训练目标是"预测下一个词",不是"给出好回答"。模型学会了语言模式,但不知道什么样的回答是人类想要的。
用户:
怎么做番茄炒蛋?
预训练模型可能回答:
番茄炒蛋是一道菜,由番茄和蛋组成。蛋是鸡下的,鸡是鸟纲雉科动物……
(在"说"正确的话,但不是用户想要的)
问题2:可能输出有害内容
预训练数据来自互联网,可能包含暴力、歧视、有害内容。模型可能学会这些模式,在回答中输出不当内容。
问题3:说话风格"不像人"
预训练模型的回答可能很"机械",缺乏人情味,不会道歉,不会拒绝,不会表达不确定性。
💡 RLHF的使命
让模型对齐(Alignment)人类的意图、价值观和偏好。简单说:让AI说人话,听人话,做好事。
2RLHF 的三阶段流程
先让人类标注员写出"好的回答",用这些数据微调模型。
流程:
1. 收集大量(问题,好回答)对
2. 用这些数据微调预训练模型
3. 模型学会"好回答"的基本格式和风格
效果:模型从"能说话"变成"能对话"
让人类对模型的不同回答打分,训练一个"打分器"。
流程:
1. 模型对同一问题生成多个回答(如4个)
2. 人类标注员对回答排序(哪个最好,哪个最差)
3. 训练一个奖励模型,学会预测人类的偏好
效果:有了一个"AI评分官",能判断回答好不好
用奖励模型的分数作为"奖励信号",用强化学习优化模型。
流程:
1. 模型生成回答
2. 奖励模型给回答打分
3. 用PPO算法优化模型,让它生成更高分的回答
4. 迭代多轮
效果:模型学会生成人类喜欢的回答
3RLHF 为什么有效?
类比:训练狗狗
训练狗狗时,你不会告诉它"怎么做动作",而是在它做对了的时候给零食奖励。久而久之,狗狗就知道哪些行为会得到奖励。RLHF也是这样:不直接告诉AI"怎么回答",而是在它回答好的时候给高分,它就会学会什么样的回答是好回答。
为什么需要奖励模型?
直接让人类给每个回答打分太慢、太贵。所以训练一个"奖励模型"来模拟人类的打分。奖励模型学会了人类的偏好后,就可以快速给模型生成的大量回答打分,用于强化学习训练。
迭代优化的威力
RLHF不是一次性的,而是迭代多轮。每轮训练后,模型变得更好;奖励模型也随之更新,提供更准确的分数。这个迭代过程让模型不断向"好回答"逼近。
4RLHF 的局限与挑战
⚠️ 局限1:人工标注成本高
需要大量人类标注员对回答排序、打分。高质量标注更贵。这是RLHF最大的瓶颈之一。
⚠️ 局限2:标注员偏好不代表真实用户
标注员是"代理人",他们的偏好可能与真实用户不同。标注员可能偏好"礼貌但无用"的回答。
⚠️ 局限3:"讨好"问题
模型可能学会"讨好"奖励模型,生成看起来好但实际无用的回答——这叫"奖励欺骗"(Reward Hacking)。
⚠️ 局限4:价值观对齐困难
不同文化、不同人群有不同的价值观。RLHF对齐的是"标注员的价值观",不一定适用于所有人。
5核心总结
🎓 一句话总结
- ①目标:让AI对齐人类意图和价值观,说"人话"
- ②三阶段:SFT(有监督微调)→ RM(奖励模型)→ PPO(强化学习优化)
- ③核心思想:用人类反馈训练奖励模型,再以奖励信号指导模型优化
- ④局限:标注成本高、偏好代理问题、奖励欺骗、价值观对齐困难
→下一篇预告
👉 下一篇:奖励模型
RLHF的核心组件是奖励模型——它给AI的回答打分,告诉AI"这个回答好不好"。奖励模型是怎么训练的?为什么它能模拟人类偏好?有什么技巧让它更准确?下一篇我们来详细讲解这个RLHF的"大脑"。
✏️ 手绘图解 · AI Catch 出品
第 47 篇 / 共 84 篇 · 第五阶段:LLM高级技巧