第 29 篇 · 深度学习架构

大语言模型（LLM）的奥秘——参数、预训练、微调

GPT-3有1750亿参数，LLaMA 3有4000亿参数。这些「大」模型是怎么训练出来的？为什么它们能表现出如此惊人的能力？

训练一个LLM通常包括三个阶段：预训练 → 微调 → 对齐。

1
预训练：从海量文本中学习语言

预训练是最昂贵、最耗时的阶段。模型在海量文本上训练，学习语言的统计规律、知识、常识。

预训练过程

收集海量文本

书籍、网页、代码、对话等

随机初始化参数

数十亿甚至数千亿参数

训练：预测下一个词

在数千块GPU上训练数周到数月

💰

成本：预训练一个LLM可能需要数百万美元的算力成本。

微调

2
微调：让模型适应特定任务

预训练后的模型是「通才」，什么都懂一点，但未必精通某个领域。微调就是在特定任务上继续训练，让它成为「专才」。

微调过程

预训练模型

通才

特定任务数据

比如医疗、法律、代码

微调模型

专才

指令微调📝

学会遵循指令

让模型学会「用户问什么，就答什么」，而不是继续对话。

领域微调🏥

适应特定领域

在医疗数据上微调，模型就能回答医学问题。

3
RLHF：对齐人类偏好

即使经过微调，模型可能仍然会说一些不安全、不helpful、不诚实的话。RLHF（Reinforcement Learning from Human Feedback）就是用人类反馈来调整模型，让它的行为更符合人类期望。

RLHF流程

第一步：收集人类偏好数据

让人类标注员对多个回答排序

第二步：训练奖励模型

用人类偏好数据训练一个打分器

第三步：用强化学习微调LLM

LLM生成回答，奖励模型打分，LLM调整策略

类比理解：就像教小孩。预训练是让他读书识字，微调是教他做作业，RLHF是他做错了你纠正他、做对了你鼓励他。

4
参数越多越好吗？

一般来说，参数越多，模型能力越强。但不是绝对的——训练数据质量、训练方法同样重要。

参数规模

能处理简单任务，速度快

10B

能处理中等复杂任务

100B+

能处理复杂任务，表现接近人类

总结

🎓 一句话总结

①预训练 = 在海量文本上训练，学习语言规律，成本最高
②微调 = 在特定任务数据上继续训练，适应特定领域
③RLHF = 用人类反馈对齐模型行为，更安全、helpful
④参数规模 = 更多参数通常意味着更强能力，但非绝对

→
下篇预告

第30篇：多模态模型——AI的「五感」

GPT-4能看图、听声音、甚至创作视频。这就是多模态模型——AI不再局限于文本，而是能同时处理图像、音频、视频等多种模态。下一篇，我们来聊聊AI如何打开「五感」。

上一篇：BERT vs GPT 下一篇：多模态模型

✏️ 手绘图解 · AI Catch 出品

第 29 篇 / 深度学习架构篇

大语言模型（LLM）的奥秘——参数、预训练、微调

1预训练：从海量文本中学习语言

2微调：让模型适应特定任务