第 36 篇 · LLM基础

微调:让AI学会特定技能

从通才到专才,这一步究竟发生了什么?

上一篇说了,预训练给了AI一个"博学多才的大脑"——能理解语言、储存知识、做基础推理。

但这个大脑有个问题:你跟它说"帮我写封邮件",它可能会续写出"帮我写封邮件的步骤如下:第一、打开电脑……"——它在预测文字,而不是在帮你。

微调(Fine-tuning)就是那道工序,让AI从"博学但不实用"变成"真正帮得上忙的助手"。

微调是什么?

1
微调的本质:在巨人肩膀上再训练

微调不是从头训练一个新模型。它的起点是一个已经完成预训练的大模型,然后用少量、高质量、针对性的数据继续训练,让模型在特定方向上表现得更好。

微调 = 站在预训练的肩膀上
🏛️

预训练大模型(基座)

训练成本:亿美元级 | 数据:万亿Token | 时间:数月

能力:语言理解 + 世界知识 + 基础推理

💬

对话微调

ChatGPT、Claude

🏥

医疗微调

Med-PaLM 2

💻

代码微调

GitHub Copilot

类比👨‍🍳

厨师学校毕业 → 餐厅实习

厨师学校培养的是基本功(刀工、火候、调味)。去了某家米其林餐厅实习,才学会这家餐厅特有的菜式和风格。基本功不变,只是在上面叠加了专业技能。微调和预训练的关系,就是这样。
微调有哪几种方式?

2
微调的三种主要方式

从预训练模型到ChatGPT这样的对话助手,OpenAI实际上做了三阶段的微调。这套方法现在已经成为业界标准。

第一步
📋

监督微调(SFT,Supervised Fine-Tuning)

人工标注团队写了大量高质量的「问题-回答」对,比如:"用简单的语言解释量子纠缠"→"(一段清晰的解释)"。模型学习这些例子,学会"被问到问题时,要给出有帮助的直接回答",而不是漫无边际地续写文字。

💡 关键:数据量不多(几万到几十万条),但每条都是精心设计的高质量示例。质量远比数量重要。

第二步
🏆

奖励模型训练(Reward Model)

对同一个问题,让模型生成多个答案(比如4个),然后由人类标注员对这4个答案从好到差排个序。用这些排序数据训练一个"奖励模型"——这个模型能自动判断一个回答"有多好",给出一个分数。

💡 作用:有了奖励模型,就有了可量化的"好坏标准",为下一步的强化学习提供信号。

第三步
🎯

RLHF:基于人类反馈的强化学习

用上一步的奖励模型作为"评分员",通过强化学习算法(PPO)让主模型朝着"高分方向"更新参数。模型每生成一个回答,奖励模型就给打分,然后根据得分调整参数——不断循环,直到模型能稳定地给出"高分回答"。

💡 RLHF = Reinforcement Learning from Human Feedback,这是ChatGPT真正"听话"的秘诀。

三阶段流程总览

3
三阶段完整流程

从预训练模型到ChatGPT的三步旅程
1

SFT 监督微调

人工示例 → 学会「回答问题」

2

奖励模型训练

人类排序 → 学会「什么是好回答」

3

RLHF 强化学习

奖励信号 → 不断优化到「更好的回答」

ChatGPT / Claude 诞生

有帮助、无害、诚实——Helpful, Harmless, Honest(3H原则)

微调 vs 预训练的对比

4
预训练 vs 微调:一张表说清楚

预训练 vs 微调 全对比
维度🎓 预训练💼 微调
数据量万亿Token数万~数百万条
数据来源互联网(无标注)人工标注(高质量)
训练成本亿美元级别数万~数百万美元
训练时间数周~数月数天~数周
目标学习通用能力优化特定行为
谁能做OpenAI、谷歌等中小公司也能做
微调的实际应用

5
微调的实际应用场景

微调让"一个大模型"分裂成"无数专家"成为可能。同一个基座模型,微调几百条数据就能变成不同方向的专家。

💬

对话助手

学会如何有帮助地回答问题、保持对话、拒绝有害请求

ChatGPT(OpenAI)Claude(Anthropic)文心一言(百度)
🏥

医疗AI

用医学教材、临床指南、病历微调,专注医学问答和辅助诊断

Med-PaLM 2(谷歌)ChatDoctor医疗问诊机器人
💻

代码助手

用代码仓库和代码注释微调,精通多种编程语言和框架

GitHub CopilotCursor AI通义灵码
⚖️

法律AI

用法律文书、判决书微调,专精法律检索和合同分析

Harvey AI法律问答机器人合同审查助手
🎨

创意写作

按特定文风(广告文案、小说、剧本)微调,输出风格稳定

JasperCopy.ai各类写作工具
🏢

企业专属AI

用企业内部文档微调,只懂公司业务,不乱说外部信息

内部知识库问答客服机器人产品说明书助手
微调的代价与注意事项

6
微调不是万能药:灾难性遗忘

微调有一个经典的副作用:灾难性遗忘(Catastrophic Forgetting)

当你用特定领域的数据大力微调时,模型可能会"忘记"一部分预训练时学到的通用能力。比如一个被过度微调成"医疗AI"的模型,可能在写诗或做数学题时会变得很差。

微调程度与能力的权衡
轻微调
✅ 通用 ✅ 专业
适度微调
⚠️ 通用略降 ✅ 专业强
过度微调
❌ 遗忘通用 ✅ 极度专业
■ 通用能力
■ 专业能力

这就是为什么工程师要小心控制微调的程度,以及为什么参数高效微调方法(比如下一篇的 LoRA)变得如此流行——只更新少量参数,既能获得专业能力,又不会破坏原有的通用能力。

小结

7
总结

🎓 一句话总结

  • 微调本质:在预训练大模型基础上用少量高质量数据继续训练,获得特定能力
  • 三步流程:监督微调(SFT)→ 奖励模型训练 → RLHF强化学习,这是ChatGPT的诞生路径
  • 成本优势:微调比预训练便宜几个数量级,中小公司也能做
  • 应用广泛:对话、医疗、代码、法律、企业知识库……同一基座模型可以微调成无数专家
  • 注意灾难性遗忘:过度微调会让模型忘记通用能力,LoRA等参数高效方法能缓解这个问题

下篇预告

第37篇:LoRA——用1%的成本完成90%的微调效果

全量微调需要修改模型几十亿个参数,既贵又容易灾难性遗忘。LoRA只更新极少数"关键矩阵",成本降低10倍以上,效果却接近全量微调。下一篇揭秘这个聪明的方法。

✏️ 手绘图解 · AI Catch 出品

第 36 篇 / 共 84 篇