第 47 篇 · LLM高级技巧

RLHF：如何让AI听人话

用人类反馈训练AI，让它说"人话"

ChatGPT为什么这么好用？为什么它能理解你的意图，给出有礼貌的回答，而且很少说冒犯性的话？

答案很大程度上是一个技术：RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）。

预训练的大模型很聪明，但它不一定会"好好说话"。它可能回答得粗鲁、不安全、不符合人类偏好。RLHF就是用人类的反馈来"调教"AI，让它学会说"人话"。

为什么需要RLHF？

1
预训练模型的"问题"

预训练的大模型已经学会了语言的模式，但还不够"好用"。

预训练模型的三大问题

🎯

问题1：不理解"好回答"的标准

预训练目标是"预测下一个词"，不是"给出好回答"。模型学会了语言模式，但不知道什么样的回答是人类想要的。

用户：

怎么做番茄炒蛋？

预训练模型可能回答：

番茄炒蛋是一道菜，由番茄和蛋组成。蛋是鸡下的，鸡是鸟纲雉科动物……

（在"说"正确的话，但不是用户想要的）

⚠️

问题2：可能输出有害内容

预训练数据来自互联网，可能包含暴力、歧视、有害内容。模型可能学会这些模式，在回答中输出不当内容。

🤖

问题3：说话风格"不像人"

预训练模型的回答可能很"机械"，缺乏人情味，不会道歉，不会拒绝，不会表达不确定性。

💡 RLHF的使命

让模型对齐（Alignment）人类的意图、价值观和偏好。简单说：让AI说人话，听人话，做好事。

RLHF的三阶段

2
RLHF 的三阶段流程

RLHF的三个阶段

Stage 1有监督微调（SFT）

先让人类标注员写出"好的回答"，用这些数据微调模型。

流程：

1. 收集大量（问题，好回答）对

2. 用这些数据微调预训练模型

3. 模型学会"好回答"的基本格式和风格

效果：模型从"能说话"变成"能对话"

Stage 2训练奖励模型（RM）

让人类对模型的不同回答打分，训练一个"打分器"。

流程：

1. 模型对同一问题生成多个回答（如4个）

2. 人类标注员对回答排序（哪个最好，哪个最差）

3. 训练一个奖励模型，学会预测人类的偏好

效果：有了一个"AI评分官"，能判断回答好不好

Stage 3强化学习优化（PPO）

用奖励模型的分数作为"奖励信号"，用强化学习优化模型。

流程：

1. 模型生成回答

2. 奖励模型给回答打分

3. 用PPO算法优化模型，让它生成更高分的回答

4. 迭代多轮

效果：模型学会生成人类喜欢的回答

为什么RLHF有效？

3
RLHF 为什么有效？

RLHF的核心思想

🎮

类比：训练狗狗

训练狗狗时，你不会告诉它"怎么做动作"，而是在它做对了的时候给零食奖励。久而久之，狗狗就知道哪些行为会得到奖励。RLHF也是这样：不直接告诉AI"怎么回答"，而是在它回答好的时候给高分，它就会学会什么样的回答是好回答。

📈

为什么需要奖励模型？

直接让人类给每个回答打分太慢、太贵。所以训练一个"奖励模型"来模拟人类的打分。奖励模型学会了人类的偏好后，就可以快速给模型生成的大量回答打分，用于强化学习训练。

🔄

迭代优化的威力

RLHF不是一次性的，而是迭代多轮。每轮训练后，模型变得更好；奖励模型也随之更新，提供更准确的分数。这个迭代过程让模型不断向"好回答"逼近。

RLHF的局限

4
RLHF 的局限与挑战

⚠️ 局限1：人工标注成本高

需要大量人类标注员对回答排序、打分。高质量标注更贵。这是RLHF最大的瓶颈之一。

⚠️ 局限2：标注员偏好不代表真实用户

标注员是"代理人"，他们的偏好可能与真实用户不同。标注员可能偏好"礼貌但无用"的回答。

⚠️ 局限3："讨好"问题

模型可能学会"讨好"奖励模型，生成看起来好但实际无用的回答——这叫"奖励欺骗"（Reward Hacking）。

⚠️ 局限4：价值观对齐困难

不同文化、不同人群有不同的价值观。RLHF对齐的是"标注员的价值观"，不一定适用于所有人。

总结

5
核心总结

🎓 一句话总结

①目标：让AI对齐人类意图和价值观，说"人话"
②三阶段：SFT（有监督微调）→ RM（奖励模型）→ PPO（强化学习优化）
③核心思想：用人类反馈训练奖励模型，再以奖励信号指导模型优化
④局限：标注成本高、偏好代理问题、奖励欺骗、价值观对齐困难

→
下一篇预告

👉 下一篇：奖励模型

RLHF的核心组件是奖励模型——它给AI的回答打分，告诉AI"这个回答好不好"。奖励模型是怎么训练的？为什么它能模拟人类偏好？有什么技巧让它更准确？下一篇我们来详细讲解这个RLHF的"大脑"。

✏️ 手绘图解 · AI Catch 出品

第 47 篇 / 共 84 篇 · 第五阶段：LLM高级技巧

RLHF：如何让AI听人话

1预训练模型的"问题"

2RLHF 的三阶段流程

3RLHF 为什么有效？

4RLHF 的局限与挑战

5核心总结