微调:让AI学会特定技能
从通才到专才,这一步究竟发生了什么?
上一篇说了,预训练给了AI一个"博学多才的大脑"——能理解语言、储存知识、做基础推理。
但这个大脑有个问题:你跟它说"帮我写封邮件",它可能会续写出"帮我写封邮件的步骤如下:第一、打开电脑……"——它在预测文字,而不是在帮你。
微调(Fine-tuning)就是那道工序,让AI从"博学但不实用"变成"真正帮得上忙的助手"。
1微调的本质:在巨人肩膀上再训练
微调不是从头训练一个新模型。它的起点是一个已经完成预训练的大模型,然后用少量、高质量、针对性的数据继续训练,让模型在特定方向上表现得更好。
预训练大模型(基座)
训练成本:亿美元级 | 数据:万亿Token | 时间:数月
能力:语言理解 + 世界知识 + 基础推理
对话微调
ChatGPT、Claude
医疗微调
Med-PaLM 2
代码微调
GitHub Copilot
厨师学校毕业 → 餐厅实习
2微调的三种主要方式
从预训练模型到ChatGPT这样的对话助手,OpenAI实际上做了三阶段的微调。这套方法现在已经成为业界标准。
监督微调(SFT,Supervised Fine-Tuning)
人工标注团队写了大量高质量的「问题-回答」对,比如:"用简单的语言解释量子纠缠"→"(一段清晰的解释)"。模型学习这些例子,学会"被问到问题时,要给出有帮助的直接回答",而不是漫无边际地续写文字。
💡 关键:数据量不多(几万到几十万条),但每条都是精心设计的高质量示例。质量远比数量重要。
奖励模型训练(Reward Model)
对同一个问题,让模型生成多个答案(比如4个),然后由人类标注员对这4个答案从好到差排个序。用这些排序数据训练一个"奖励模型"——这个模型能自动判断一个回答"有多好",给出一个分数。
💡 作用:有了奖励模型,就有了可量化的"好坏标准",为下一步的强化学习提供信号。
RLHF:基于人类反馈的强化学习
用上一步的奖励模型作为"评分员",通过强化学习算法(PPO)让主模型朝着"高分方向"更新参数。模型每生成一个回答,奖励模型就给打分,然后根据得分调整参数——不断循环,直到模型能稳定地给出"高分回答"。
💡 RLHF = Reinforcement Learning from Human Feedback,这是ChatGPT真正"听话"的秘诀。
3三阶段完整流程
SFT 监督微调
人工示例 → 学会「回答问题」
奖励模型训练
人类排序 → 学会「什么是好回答」
RLHF 强化学习
奖励信号 → 不断优化到「更好的回答」
ChatGPT / Claude 诞生
有帮助、无害、诚实——Helpful, Harmless, Honest(3H原则)
4预训练 vs 微调:一张表说清楚
| 维度 | 🎓 预训练 | 💼 微调 |
|---|---|---|
| 数据量 | 万亿Token | 数万~数百万条 |
| 数据来源 | 互联网(无标注) | 人工标注(高质量) |
| 训练成本 | 亿美元级别 | 数万~数百万美元 |
| 训练时间 | 数周~数月 | 数天~数周 |
| 目标 | 学习通用能力 | 优化特定行为 |
| 谁能做 | OpenAI、谷歌等 | 中小公司也能做 |
5微调的实际应用场景
微调让"一个大模型"分裂成"无数专家"成为可能。同一个基座模型,微调几百条数据就能变成不同方向的专家。
对话助手
学会如何有帮助地回答问题、保持对话、拒绝有害请求
医疗AI
用医学教材、临床指南、病历微调,专注医学问答和辅助诊断
代码助手
用代码仓库和代码注释微调,精通多种编程语言和框架
法律AI
用法律文书、判决书微调,专精法律检索和合同分析
创意写作
按特定文风(广告文案、小说、剧本)微调,输出风格稳定
企业专属AI
用企业内部文档微调,只懂公司业务,不乱说外部信息
6微调不是万能药:灾难性遗忘
微调有一个经典的副作用:灾难性遗忘(Catastrophic Forgetting)。
当你用特定领域的数据大力微调时,模型可能会"忘记"一部分预训练时学到的通用能力。比如一个被过度微调成"医疗AI"的模型,可能在写诗或做数学题时会变得很差。
这就是为什么工程师要小心控制微调的程度,以及为什么参数高效微调方法(比如下一篇的 LoRA)变得如此流行——只更新少量参数,既能获得专业能力,又不会破坏原有的通用能力。
7总结
🎓 一句话总结
- ①微调本质:在预训练大模型基础上用少量高质量数据继续训练,获得特定能力
- ②三步流程:监督微调(SFT)→ 奖励模型训练 → RLHF强化学习,这是ChatGPT的诞生路径
- ③成本优势:微调比预训练便宜几个数量级,中小公司也能做
- ④应用广泛:对话、医疗、代码、法律、企业知识库……同一基座模型可以微调成无数专家
- ⑤注意灾难性遗忘:过度微调会让模型忘记通用能力,LoRA等参数高效方法能缓解这个问题
→下篇预告
第37篇:LoRA——用1%的成本完成90%的微调效果
全量微调需要修改模型几十亿个参数,既贵又容易灾难性遗忘。LoRA只更新极少数"关键矩阵",成本降低10倍以上,效果却接近全量微调。下一篇揭秘这个聪明的方法。
✏️ 手绘图解 · AI Catch 出品
第 36 篇 / 共 84 篇