第 35 篇 · LLM基础

预训练：AI的「通识教育」

万亿文字读下来，AI到底学会了什么？

想象你要培养一个"万能助手"。

你会怎么做？先让他上学——从小学读到大学，数学、语文、历史、物理、编程……什么都学一点，打好底子。然后再去做具体的工作。

大语言模型的成长路径几乎一模一样。预训练就是那段漫长的"在校学习"，只不过教材换成了整个互联网，时间换成了几个月的高强度GPU运算。

为什么需要预训练？

1
从零开始的AI，什么都不懂

一个全新的神经网络，参数全是随机数。它不认识任何词，不懂任何语法，连"你好"和"Hello"是不是同一个意思都不知道。

如果你直接丢给它"回答用户的问题"这个任务，它会胡言乱语。就像一个婴儿，你不能指望他一生下来就会写论文。

模型从随机到「懂事」的历程

🎲

初始状态

参数全是随机数，输出乱码

预训练（万亿Token）

🧠

预训练后

懂语言、有知识、能推理，但还不会对话

微调（高质量问答）

🤖

ChatGPT / Claude

能流畅对话、帮你解决问题

预训练是大模型成长的第一阶段，也是最贵的阶段——GPT-4的预训练据估计花费超过1亿美元。

预训练的核心任务

2
最简单也最聪明的任务：预测下一个词

你可能会问：训练这么厉害的AI，一定要做很复杂的任务吧？

不。预训练的核心任务出奇地简单——预测下一个词（Next Token Prediction）。

给模型看一段文字，让它猜下一个词是什么。就这一件事，反复做万亿次。

「预测下一个词」的训练循环

📄 训练样本（来自互联网）

人工智能正在改变我们的???

生活

概率 62%

世界

概率 25%

未来

概率 13%

💡 关键洞察

要预测好下一个词，模型必须理解上下文、语法规则、以及词语的含义。这些能力，在无数次预测中自然涌现出来。

这个任务还有一个绝妙之处：不需要人工标注。互联网上的任意一段文字，天然就是训练数据——每个词都是前一个词的"正确答案"。这叫做自监督学习（Self-Supervised Learning），能以极低成本利用海量数据。

训练数据从哪里来？

3
「教材」：万亿级别的互联网文字

GPT-4的训练数据量超过万亿个Token，包含了人类数百年来写下的几乎所有内容。但并不是随便抓一把数据就扔进去——数据质量和配比非常讲究。

预训练数据的来源构成（GPT系列估算）

🌐

网页文本（Common Crawl）45%

互联网爬虫数据，量最大，质量参差

📚

书籍（Books）20%

连贯长文本，逻辑性强

📰

新闻文章15%

时效性内容，语言规范

💻

代码（GitHub等）12%

增强推理和编程能力

🔬

学术论文（arXiv等）8%

提升科学推理能力

🔍 数据清洗有多重要？

原始互联网数据充满了垃圾：重复内容、低质量广告、有害信息……数据工程师要对原始数据做大量过滤和清洗，最终可用的数据往往只有原始抓取量的10%-20%。"垃圾进，垃圾出"（Garbage in, garbage out）是AI训练的铁律。

预训练要花多少代价？

4
训练成本：为什么只有大公司能做？

预训练是目前人类历史上最昂贵的计算任务之一。看几个数字，你就明白为什么"大模型军备竞赛"只有巨头才玩得起。

主流大模型预训练成本估算

GPT-3（2020）

A100 ×1000 训练数月

~$500万

GPT-4（2023）

A100 ×25000 训练数月

~$1亿

Llama 3（Meta）

H100 ×16000

~$数千万

Claude 3（Anthropic）

未公开

~$数千万

※ 以上均为外部估算，非官方数据

类比🏭

预训练就像建一座核电站

投入极其巨大，但一旦建好，能源（能力）可以持续廉价地分发出去。后续微调就像在核电站基础上接出的各条输电线——成本低得多。

预训练学会了什么？

5
预训练后，模型获得了哪些能力？

只靠"预测下一个词"这一个任务，模型究竟能学会什么？答案让很多人吃惊——远比任务本身复杂得多。

🗣️

语言理解

词义、句法、篇章结构、隐喻、讽刺……人类语言的所有层次都有所掌握。

📖

世界知识

历史事件、科学概念、人物传记、地理知识……来自训练数据中的事实都被压缩进参数里。

🔢

基础推理

类比推理、因果关系、简单的逻辑链……在大量文本中自然涌现，无需专门训练。

💻

代码能力

读过大量代码后，模型能理解多种编程语言的语法和逻辑，甚至能调试bug。

🌐

多语言能力

即使训练数据以英文为主，模型也学会了中文、日文、西班牙文……甚至在语言之间做迁移。让它用中文提问、英文回答都没问题。

预训练的局限

6
但预训练模型有个大问题

预训练后的模型能力惊人，却有一个致命缺陷：它只会"续写文字"，不会"回答问题"。

你输入"你好"，它可能会续写出"你好，我叫小明，今年10岁……"——因为它的训练目标就是预测下一个词，而不是理解你在跟它对话、期待它帮助你。

预训练模型 vs 微调后的对话模型

🤖 纯预训练模型

👤 用户：法国的首都是哪里？

🤖 续写：法国是一个位于西欧的国家，面积约为67万平方公里，人口约6700万……（无限续写）

❌ 不会直接回答「巴黎」

✨ 微调后的对话模型

👤 用户：法国的首都是哪里？

🤖 助手：法国的首都是巴黎（Paris）。巴黎是法国最大的城市，也是欧洲重要的文化和政治中心。

✅ 简洁直接地回答

这就是为什么还需要微调（Fine-tuning）——下一篇文章的主角。预训练建立了能力基础，微调则教会模型如何用这些能力帮助人类。

小结

7
总结

🎓 一句话总结

①什么是预训练：用海量无标注文本训练模型，任务是"预测下一个词"，属于自监督学习
②数据来源：网页、书籍、代码、论文等互联网内容，万亿Token级别，需大量清洗
③训练成本：极其昂贵（亿美元级别），需要数万张顶级GPU，只有少数机构负担得起
④学到的能力：语言理解、世界知识、基础推理、代码、多语言——在预测文字中自然涌现
⑤核心局限：只会续写，不会对话——需要微调来学会如何真正帮助人类

→
下篇预告

第36篇：微调——让AI学会特定技能

预训练给了AI万能的底子，微调让它变成真正有用的专家。ChatGPT是怎么学会"有帮助地回答问题"的？监督微调、RLHF、指令微调……下一篇全部讲清楚。

✏️ 手绘图解 · AI Catch 出品

第 35 篇 / 共 84 篇

预训练：AI的「通识教育」

1从零开始的AI，什么都不懂

2最简单也最聪明的任务：预测下一个词

3「教材」：万亿级别的互联网文字

4训练成本：为什么只有大公司能做？