第 35 篇 · LLM基础

预训练:AI的「通识教育」

万亿文字读下来,AI到底学会了什么?

想象你要培养一个"万能助手"。

你会怎么做?先让他上学——从小学读到大学,数学、语文、历史、物理、编程……什么都学一点,打好底子。然后再去做具体的工作。

大语言模型的成长路径几乎一模一样。预训练就是那段漫长的"在校学习",只不过教材换成了整个互联网,时间换成了几个月的高强度GPU运算。

为什么需要预训练?

1
从零开始的AI,什么都不懂

一个全新的神经网络,参数全是随机数。它不认识任何词,不懂任何语法,连"你好"和"Hello"是不是同一个意思都不知道。

如果你直接丢给它"回答用户的问题"这个任务,它会胡言乱语。就像一个婴儿,你不能指望他一生下来就会写论文。

模型从随机到「懂事」的历程
🎲

初始状态

参数全是随机数,输出乱码

预训练(万亿Token)
🧠

预训练后

懂语言、有知识、能推理,但还不会对话

微调(高质量问答)
🤖

ChatGPT / Claude

能流畅对话、帮你解决问题

预训练是大模型成长的第一阶段,也是最贵的阶段——GPT-4的预训练据估计花费超过1亿美元。

预训练的核心任务

2
最简单也最聪明的任务:预测下一个词

你可能会问:训练这么厉害的AI,一定要做很复杂的任务吧?

不。预训练的核心任务出奇地简单——预测下一个词(Next Token Prediction)

给模型看一段文字,让它猜下一个词是什么。就这一件事,反复做万亿次。

「预测下一个词」的训练循环

📄 训练样本(来自互联网)

人工智能正在改变我们???

生活

概率 62%

世界

概率 25%

未来

概率 13%

💡 关键洞察

要预测好下一个词,模型必须理解上下文、语法规则、以及词语的含义。这些能力,在无数次预测中自然涌现出来。

这个任务还有一个绝妙之处:不需要人工标注。互联网上的任意一段文字,天然就是训练数据——每个词都是前一个词的"正确答案"。这叫做自监督学习(Self-Supervised Learning),能以极低成本利用海量数据。

训练数据从哪里来?

3
「教材」:万亿级别的互联网文字

GPT-4的训练数据量超过万亿个Token,包含了人类数百年来写下的几乎所有内容。但并不是随便抓一把数据就扔进去——数据质量和配比非常讲究。

预训练数据的来源构成(GPT系列估算)
🌐
网页文本(Common Crawl)45%

互联网爬虫数据,量最大,质量参差

📚
书籍(Books)20%

连贯长文本,逻辑性强

📰
新闻文章15%

时效性内容,语言规范

💻
代码(GitHub等)12%

增强推理和编程能力

🔬
学术论文(arXiv等)8%

提升科学推理能力

🔍 数据清洗有多重要?

原始互联网数据充满了垃圾:重复内容、低质量广告、有害信息……数据工程师要对原始数据做大量过滤和清洗,最终可用的数据往往只有原始抓取量的10%-20%。"垃圾进,垃圾出"(Garbage in, garbage out)是AI训练的铁律。

预训练要花多少代价?

4
训练成本:为什么只有大公司能做?

预训练是目前人类历史上最昂贵的计算任务之一。看几个数字,你就明白为什么"大模型军备竞赛"只有巨头才玩得起。

主流大模型预训练成本估算

GPT-3(2020)

A100 ×1000 训练数月

~$500万

GPT-4(2023)

A100 ×25000 训练数月

~$1亿

Llama 3(Meta)

H100 ×16000

~$数千万

Claude 3(Anthropic)

未公开

~$数千万

※ 以上均为外部估算,非官方数据

类比🏭

预训练就像建一座核电站

投入极其巨大,但一旦建好,能源(能力)可以持续廉价地分发出去。后续微调就像在核电站基础上接出的各条输电线——成本低得多。
预训练学会了什么?

5
预训练后,模型获得了哪些能力?

只靠"预测下一个词"这一个任务,模型究竟能学会什么?答案让很多人吃惊——远比任务本身复杂得多。

🗣️

语言理解

词义、句法、篇章结构、隐喻、讽刺……人类语言的所有层次都有所掌握。

📖

世界知识

历史事件、科学概念、人物传记、地理知识……来自训练数据中的事实都被压缩进参数里。

🔢

基础推理

类比推理、因果关系、简单的逻辑链……在大量文本中自然涌现,无需专门训练。

💻

代码能力

读过大量代码后,模型能理解多种编程语言的语法和逻辑,甚至能调试bug。

🌐

多语言能力

即使训练数据以英文为主,模型也学会了中文、日文、西班牙文……甚至在语言之间做迁移。让它用中文提问、英文回答都没问题。

预训练的局限

6
但预训练模型有个大问题

预训练后的模型能力惊人,却有一个致命缺陷:它只会"续写文字",不会"回答问题"

你输入"你好",它可能会续写出"你好,我叫小明,今年10岁……"——因为它的训练目标就是预测下一个词,而不是理解你在跟它对话、期待它帮助你。

预训练模型 vs 微调后的对话模型

🤖 纯预训练模型

👤 用户:法国的首都是哪里?

🤖 续写:法国是一个位于西欧的国家,面积约为67万平方公里,人口约6700万……(无限续写)

❌ 不会直接回答「巴黎」

✨ 微调后的对话模型

👤 用户:法国的首都是哪里?

🤖 助手:法国的首都是巴黎(Paris)。巴黎是法国最大的城市,也是欧洲重要的文化和政治中心。

✅ 简洁直接地回答

这就是为什么还需要微调(Fine-tuning)——下一篇文章的主角。预训练建立了能力基础,微调则教会模型如何用这些能力帮助人类。

小结

7
总结

🎓 一句话总结

  • 什么是预训练:用海量无标注文本训练模型,任务是"预测下一个词",属于自监督学习
  • 数据来源:网页、书籍、代码、论文等互联网内容,万亿Token级别,需大量清洗
  • 训练成本:极其昂贵(亿美元级别),需要数万张顶级GPU,只有少数机构负担得起
  • 学到的能力:语言理解、世界知识、基础推理、代码、多语言——在预测文字中自然涌现
  • 核心局限:只会续写,不会对话——需要微调来学会如何真正帮助人类

下篇预告

第36篇:微调——让AI学会特定技能

预训练给了AI万能的底子,微调让它变成真正有用的专家。ChatGPT是怎么学会"有帮助地回答问题"的?监督微调、RLHF、指令微调……下一篇全部讲清楚。

✏️ 手绘图解 · AI Catch 出品

第 35 篇 / 共 84 篇