第 29 篇 · 深度学习架构
大语言模型(LLM)的奥秘——参数、预训练、微调
GPT-3有1750亿参数,LLaMA 3有4000亿参数。这些「大」模型是怎么训练出来的?为什么它们能表现出如此惊人的能力?
训练一个LLM通常包括三个阶段:预训练 → 微调 → 对齐。
1预训练:从海量文本中学习语言
预训练是最昂贵、最耗时的阶段。模型在海量文本上训练,学习语言的统计规律、知识、常识。
预训练过程
收集海量文本
书籍、网页、代码、对话等
随机初始化参数
数十亿甚至数千亿参数
训练:预测下一个词
在数千块GPU上训练数周到数月
💰
成本:预训练一个LLM可能需要数百万美元的算力成本。
微调
2微调:让模型适应特定任务
预训练后的模型是「通才」,什么都懂一点,但未必精通某个领域。微调就是在特定任务上继续训练,让它成为「专才」。
微调过程
预训练模型
通才
特定任务数据
比如医疗、法律、代码
微调模型
专才
指令微调📝
学会遵循指令
让模型学会「用户问什么,就答什么」,而不是继续对话。
领域微调🏥
适应特定领域
在医疗数据上微调,模型就能回答医学问题。
3RLHF:对齐人类偏好
即使经过微调,模型可能仍然会说一些不安全、不helpful、不诚实的话。RLHF(Reinforcement Learning from Human Feedback)就是用人类反馈来调整模型,让它的行为更符合人类期望。
RLHF流程
第一步:收集人类偏好数据
让人类标注员对多个回答排序
第二步:训练奖励模型
用人类偏好数据训练一个打分器
第三步:用强化学习微调LLM
LLM生成回答,奖励模型打分,LLM调整策略
类比理解:就像教小孩。预训练是让他读书识字,微调是教他做作业,RLHF是他做错了你纠正他、做对了你鼓励他。
4参数越多越好吗?
一般来说,参数越多,模型能力越强。但不是绝对的——训练数据质量、训练方法同样重要。
参数规模
1B
能处理简单任务,速度快
10B
能处理中等复杂任务
100B+
能处理复杂任务,表现接近人类
总结
🎓 一句话总结
- ①预训练 = 在海量文本上训练,学习语言规律,成本最高
- ②微调 = 在特定任务数据上继续训练,适应特定领域
- ③RLHF = 用人类反馈对齐模型行为,更安全、helpful
- ④参数规模 = 更多参数通常意味着更强能力,但非绝对
→下篇预告
第30篇:多模态模型——AI的「五感」
GPT-4能看图、听声音、甚至创作视频。这就是多模态模型——AI不再局限于文本,而是能同时处理图像、音频、视频等多种模态。下一篇,我们来聊聊AI如何打开「五感」。
✏️ 手绘图解 · AI Catch 出品
第 29 篇 / 深度学习架构篇