预训练:AI的「通识教育」
万亿文字读下来,AI到底学会了什么?
想象你要培养一个"万能助手"。
你会怎么做?先让他上学——从小学读到大学,数学、语文、历史、物理、编程……什么都学一点,打好底子。然后再去做具体的工作。
大语言模型的成长路径几乎一模一样。预训练就是那段漫长的"在校学习",只不过教材换成了整个互联网,时间换成了几个月的高强度GPU运算。
1从零开始的AI,什么都不懂
一个全新的神经网络,参数全是随机数。它不认识任何词,不懂任何语法,连"你好"和"Hello"是不是同一个意思都不知道。
如果你直接丢给它"回答用户的问题"这个任务,它会胡言乱语。就像一个婴儿,你不能指望他一生下来就会写论文。
初始状态
参数全是随机数,输出乱码
预训练后
懂语言、有知识、能推理,但还不会对话
ChatGPT / Claude
能流畅对话、帮你解决问题
预训练是大模型成长的第一阶段,也是最贵的阶段——GPT-4的预训练据估计花费超过1亿美元。
2最简单也最聪明的任务:预测下一个词
你可能会问:训练这么厉害的AI,一定要做很复杂的任务吧?
不。预训练的核心任务出奇地简单——预测下一个词(Next Token Prediction)。
给模型看一段文字,让它猜下一个词是什么。就这一件事,反复做万亿次。
📄 训练样本(来自互联网)
生活
概率 62%
世界
概率 25%
未来
概率 13%
💡 关键洞察
要预测好下一个词,模型必须理解上下文、语法规则、以及词语的含义。这些能力,在无数次预测中自然涌现出来。
这个任务还有一个绝妙之处:不需要人工标注。互联网上的任意一段文字,天然就是训练数据——每个词都是前一个词的"正确答案"。这叫做自监督学习(Self-Supervised Learning),能以极低成本利用海量数据。
3「教材」:万亿级别的互联网文字
GPT-4的训练数据量超过万亿个Token,包含了人类数百年来写下的几乎所有内容。但并不是随便抓一把数据就扔进去——数据质量和配比非常讲究。
互联网爬虫数据,量最大,质量参差
连贯长文本,逻辑性强
时效性内容,语言规范
增强推理和编程能力
提升科学推理能力
🔍 数据清洗有多重要?
原始互联网数据充满了垃圾:重复内容、低质量广告、有害信息……数据工程师要对原始数据做大量过滤和清洗,最终可用的数据往往只有原始抓取量的10%-20%。"垃圾进,垃圾出"(Garbage in, garbage out)是AI训练的铁律。
4训练成本:为什么只有大公司能做?
预训练是目前人类历史上最昂贵的计算任务之一。看几个数字,你就明白为什么"大模型军备竞赛"只有巨头才玩得起。
GPT-3(2020)
A100 ×1000 训练数月
~$500万
GPT-4(2023)
A100 ×25000 训练数月
~$1亿
Llama 3(Meta)
H100 ×16000
~$数千万
Claude 3(Anthropic)
未公开
~$数千万
※ 以上均为外部估算,非官方数据
预训练就像建一座核电站
5预训练后,模型获得了哪些能力?
只靠"预测下一个词"这一个任务,模型究竟能学会什么?答案让很多人吃惊——远比任务本身复杂得多。
语言理解
词义、句法、篇章结构、隐喻、讽刺……人类语言的所有层次都有所掌握。
世界知识
历史事件、科学概念、人物传记、地理知识……来自训练数据中的事实都被压缩进参数里。
基础推理
类比推理、因果关系、简单的逻辑链……在大量文本中自然涌现,无需专门训练。
代码能力
读过大量代码后,模型能理解多种编程语言的语法和逻辑,甚至能调试bug。
多语言能力
即使训练数据以英文为主,模型也学会了中文、日文、西班牙文……甚至在语言之间做迁移。让它用中文提问、英文回答都没问题。
6但预训练模型有个大问题
预训练后的模型能力惊人,却有一个致命缺陷:它只会"续写文字",不会"回答问题"。
你输入"你好",它可能会续写出"你好,我叫小明,今年10岁……"——因为它的训练目标就是预测下一个词,而不是理解你在跟它对话、期待它帮助你。
🤖 纯预训练模型
👤 用户:法国的首都是哪里?
🤖 续写:法国是一个位于西欧的国家,面积约为67万平方公里,人口约6700万……(无限续写)
❌ 不会直接回答「巴黎」
✨ 微调后的对话模型
👤 用户:法国的首都是哪里?
🤖 助手:法国的首都是巴黎(Paris)。巴黎是法国最大的城市,也是欧洲重要的文化和政治中心。
✅ 简洁直接地回答
这就是为什么还需要微调(Fine-tuning)——下一篇文章的主角。预训练建立了能力基础,微调则教会模型如何用这些能力帮助人类。
7总结
🎓 一句话总结
- ①什么是预训练:用海量无标注文本训练模型,任务是"预测下一个词",属于自监督学习
- ②数据来源:网页、书籍、代码、论文等互联网内容,万亿Token级别,需大量清洗
- ③训练成本:极其昂贵(亿美元级别),需要数万张顶级GPU,只有少数机构负担得起
- ④学到的能力:语言理解、世界知识、基础推理、代码、多语言——在预测文字中自然涌现
- ⑤核心局限:只会续写,不会对话——需要微调来学会如何真正帮助人类
→下篇预告
第36篇:微调——让AI学会特定技能
预训练给了AI万能的底子,微调让它变成真正有用的专家。ChatGPT是怎么学会"有帮助地回答问题"的?监督微调、RLHF、指令微调……下一篇全部讲清楚。
✏️ 手绘图解 · AI Catch 出品
第 35 篇 / 共 84 篇