第 29 篇 · 深度学习架构

大语言模型(LLM)的奥秘——参数、预训练、微调

GPT-3有1750亿参数,LLaMA 3有4000亿参数。这些「大」模型是怎么训练出来的?为什么它们能表现出如此惊人的能力?

训练一个LLM通常包括三个阶段:预训练 → 微调 → 对齐

1
预训练:从海量文本中学习语言

预训练是最昂贵、最耗时的阶段。模型在海量文本上训练,学习语言的统计规律、知识、常识。

预训练过程

收集海量文本

书籍、网页、代码、对话等

随机初始化参数

数十亿甚至数千亿参数

训练:预测下一个词

在数千块GPU上训练数周到数月

💰
成本:预训练一个LLM可能需要数百万美元的算力成本。
微调

2
微调:让模型适应特定任务

预训练后的模型是「通才」,什么都懂一点,但未必精通某个领域。微调就是在特定任务上继续训练,让它成为「专才」。

微调过程

预训练模型

通才

特定任务数据

比如医疗、法律、代码

微调模型

专才

指令微调📝

学会遵循指令

让模型学会「用户问什么,就答什么」,而不是继续对话。
领域微调🏥

适应特定领域

在医疗数据上微调,模型就能回答医学问题。

3
RLHF:对齐人类偏好

即使经过微调,模型可能仍然会说一些不安全、不helpful、不诚实的话。RLHF(Reinforcement Learning from Human Feedback)就是用人类反馈来调整模型,让它的行为更符合人类期望。

RLHF流程
第一步:收集人类偏好数据

让人类标注员对多个回答排序

第二步:训练奖励模型

用人类偏好数据训练一个打分器

第三步:用强化学习微调LLM

LLM生成回答,奖励模型打分,LLM调整策略

类比理解:就像教小孩。预训练是让他读书识字,微调是教他做作业,RLHF是他做错了你纠正他、做对了你鼓励他。

4
参数越多越好吗?

一般来说,参数越多,模型能力越强。但不是绝对的——训练数据质量、训练方法同样重要。

参数规模

1B

能处理简单任务,速度快

10B

能处理中等复杂任务

100B+

能处理复杂任务,表现接近人类

总结

🎓 一句话总结

  • 预训练 = 在海量文本上训练,学习语言规律,成本最高
  • 微调 = 在特定任务数据上继续训练,适应特定领域
  • RLHF = 用人类反馈对齐模型行为,更安全、helpful
  • 参数规模 = 更多参数通常意味着更强能力,但非绝对

下篇预告

第30篇:多模态模型——AI的「五感」

GPT-4能看图、听声音、甚至创作视频。这就是多模态模型——AI不再局限于文本,而是能同时处理图像、音频、视频等多种模态。下一篇,我们来聊聊AI如何打开「五感」。

✏️ 手绘图解 · AI Catch 出品

第 29 篇 / 深度学习架构篇