第 36 篇 · LLM基础

微调：让AI学会特定技能

从通才到专才，这一步究竟发生了什么？

上一篇说了，预训练给了AI一个"博学多才的大脑"——能理解语言、储存知识、做基础推理。

但这个大脑有个问题：你跟它说"帮我写封邮件"，它可能会续写出"帮我写封邮件的步骤如下：第一、打开电脑……"——它在预测文字，而不是在帮你。

微调（Fine-tuning）就是那道工序，让AI从"博学但不实用"变成"真正帮得上忙的助手"。

微调是什么？

1
微调的本质：在巨人肩膀上再训练

微调不是从头训练一个新模型。它的起点是一个已经完成预训练的大模型，然后用少量、高质量、针对性的数据继续训练，让模型在特定方向上表现得更好。

微调 = 站在预训练的肩膀上

🏛️

预训练大模型（基座）

训练成本：亿美元级 | 数据：万亿Token | 时间：数月

能力：语言理解 + 世界知识 + 基础推理

💬

对话微调

ChatGPT、Claude

🏥

医疗微调

Med-PaLM 2

💻

代码微调

GitHub Copilot

类比👨‍🍳

厨师学校毕业 → 餐厅实习

厨师学校培养的是基本功（刀工、火候、调味）。去了某家米其林餐厅实习，才学会这家餐厅特有的菜式和风格。基本功不变，只是在上面叠加了专业技能。微调和预训练的关系，就是这样。

微调有哪几种方式？

2
微调的三种主要方式

从预训练模型到ChatGPT这样的对话助手，OpenAI实际上做了三阶段的微调。这套方法现在已经成为业界标准。

第一步

📋

监督微调（SFT，Supervised Fine-Tuning）

人工标注团队写了大量高质量的「问题-回答」对，比如："用简单的语言解释量子纠缠"→"（一段清晰的解释）"。模型学习这些例子，学会"被问到问题时，要给出有帮助的直接回答"，而不是漫无边际地续写文字。

💡 关键：数据量不多（几万到几十万条），但每条都是精心设计的高质量示例。质量远比数量重要。

第二步

🏆

奖励模型训练（Reward Model）

对同一个问题，让模型生成多个答案（比如4个），然后由人类标注员对这4个答案从好到差排个序。用这些排序数据训练一个"奖励模型"——这个模型能自动判断一个回答"有多好"，给出一个分数。

💡 作用：有了奖励模型，就有了可量化的"好坏标准"，为下一步的强化学习提供信号。

第三步

🎯

RLHF：基于人类反馈的强化学习

用上一步的奖励模型作为"评分员"，通过强化学习算法（PPO）让主模型朝着"高分方向"更新参数。模型每生成一个回答，奖励模型就给打分，然后根据得分调整参数——不断循环，直到模型能稳定地给出"高分回答"。

💡 RLHF = Reinforcement Learning from Human Feedback，这是ChatGPT真正"听话"的秘诀。

三阶段流程总览

3
三阶段完整流程

从预训练模型到ChatGPT的三步旅程

SFT 监督微调

人工示例 → 学会「回答问题」

奖励模型训练

人类排序 → 学会「什么是好回答」

RLHF 强化学习

奖励信号 → 不断优化到「更好的回答」

✓

ChatGPT / Claude 诞生

有帮助、无害、诚实——Helpful, Harmless, Honest（3H原则）

微调 vs 预训练的对比

4
预训练 vs 微调：一张表说清楚

预训练 vs 微调全对比

维度	🎓 预训练	💼 微调
数据量	万亿Token	数万~数百万条
数据来源	互联网（无标注）	人工标注（高质量）
训练成本	亿美元级别	数万~数百万美元
训练时间	数周~数月	数天~数周
目标	学习通用能力	优化特定行为
谁能做	OpenAI、谷歌等	中小公司也能做

微调的实际应用

5
微调的实际应用场景

微调让"一个大模型"分裂成"无数专家"成为可能。同一个基座模型，微调几百条数据就能变成不同方向的专家。

💬

对话助手

学会如何有帮助地回答问题、保持对话、拒绝有害请求

ChatGPT（OpenAI）Claude（Anthropic）文心一言（百度）

🏥

医疗AI

用医学教材、临床指南、病历微调，专注医学问答和辅助诊断

Med-PaLM 2（谷歌）ChatDoctor医疗问诊机器人

💻

代码助手

用代码仓库和代码注释微调，精通多种编程语言和框架

GitHub CopilotCursor AI通义灵码

⚖️

法律AI

用法律文书、判决书微调，专精法律检索和合同分析

Harvey AI法律问答机器人合同审查助手

🎨

创意写作

按特定文风（广告文案、小说、剧本）微调，输出风格稳定

JasperCopy.ai各类写作工具

🏢

企业专属AI

用企业内部文档微调，只懂公司业务，不乱说外部信息

内部知识库问答客服机器人产品说明书助手

微调的代价与注意事项

6
微调不是万能药：灾难性遗忘

微调有一个经典的副作用：灾难性遗忘（Catastrophic Forgetting）。

当你用特定领域的数据大力微调时，模型可能会"忘记"一部分预训练时学到的通用能力。比如一个被过度微调成"医疗AI"的模型，可能在写诗或做数学题时会变得很差。

微调程度与能力的权衡

轻微调

✅ 通用 ✅ 专业

适度微调

⚠️ 通用略降 ✅ 专业强

过度微调

❌ 遗忘通用 ✅ 极度专业

■ 通用能力

■ 专业能力

这就是为什么工程师要小心控制微调的程度，以及为什么参数高效微调方法（比如下一篇的 LoRA）变得如此流行——只更新少量参数，既能获得专业能力，又不会破坏原有的通用能力。

小结

7
总结

🎓 一句话总结

①微调本质：在预训练大模型基础上用少量高质量数据继续训练，获得特定能力
②三步流程：监督微调（SFT）→ 奖励模型训练 → RLHF强化学习，这是ChatGPT的诞生路径
③成本优势：微调比预训练便宜几个数量级，中小公司也能做
④应用广泛：对话、医疗、代码、法律、企业知识库……同一基座模型可以微调成无数专家
⑤注意灾难性遗忘：过度微调会让模型忘记通用能力，LoRA等参数高效方法能缓解这个问题

→
下篇预告

第37篇：LoRA——用1%的成本完成90%的微调效果

全量微调需要修改模型几十亿个参数，既贵又容易灾难性遗忘。LoRA只更新极少数"关键矩阵"，成本降低10倍以上，效果却接近全量微调。下一篇揭秘这个聪明的方法。

✏️ 手绘图解 · AI Catch 出品

第 36 篇 / 共 84 篇

微调：让AI学会特定技能

1微调的本质：在巨人肩膀上再训练

厨师学校毕业 → 餐厅实习

2微调的三种主要方式