第 34 篇 · LLM基础

大语言模型：为什么GPT这么厉害？

从Token到智能，揭秘大语言模型的核心秘密

你可能用过GPT-4或者Claude，被它的能力震惊过：它能写诗、写代码、解数学题、分析合同、聊历史……几乎无所不会。

但它明明只是个"预测下一个词"的模型，为什么能做到这一切？

这其实是AI领域过去十年最惊人的发现之一：当一个语言模型足够大、训练足够多，它会"涌现"出人类都没有预料到的能力。就像水分子本身没有波浪，但足够多的水分子聚在一起就能掀起风浪。

今天我们来聊聊大语言模型的本质：它是什么、为什么厉害、它的能力从哪里来。

大语言模型是什么

1
大语言模型的三个关键词

大语言模型（Large Language Model，LLM）——这个名字其实就是它的定义：

LLM = 大 + 语言 + 模型

📏

大（Large）

参数量在十亿（Billion）级别以上。GPT-3有1750亿参数，GPT-4据说超过1万亿。这里的"大"不只是噱头，而是性能的关键。

💬

语言（Language）

专门处理自然语言（文字）的模型。输入是文字，输出也是文字。区别于处理图像的视觉模型、处理音频的语音模型。

🧠

模型（Model）

基于深度学习的神经网络，核心是Transformer架构。通过海量数据训练，学习语言的规律和知识。

一句话总结🎯

LLM = 用Transformer做的、参数超多的、专门处理文字的神经网络

它的本质任务很简单：给定一段文字，预测下一个Token是什么。但正是这个简单的任务，在海量数据和超大规模下，催生了惊人的智能。

为什么GPT这么厉害

2
为什么GPT这么厉害？四个关键因素

GPT的厉害不是一个因素造成的，而是四个因素叠加的结果：

因素①📚

海量训练数据：读了人类几万年的书

GPT-4的训练数据包含来自互联网的万亿级别文本——网页、书籍、代码、论文、新闻……据估计相当于几万年的人类阅读量。你能写代码，是因为你学过编程；你能讲历史，是因为你读过历史书。GPT能做这些，是因为它"读"过人类写的几乎所有内容。

因素②🏗️

Transformer架构：理解上下文的神器

自注意力机制（Self-Attention）让AI能同时关注整个序列中的所有位置，理解词与词之间的关系，捕捉长距离的依赖关系。比如"苹果手机太贵了，但它值这个价"——AI能理解"它"指的是"苹果手机"，而不是"苹果"（水果）。这种上下文理解能力，是LLM厉害的基础。

因素③📈

超大规模：量变引起质变

规模定律（Scaling Laws）显示：模型参数量、数据量、计算量与性能之间存在幂律关系。简单说，越大越强。更重要的是，当模型达到某个规模阈值，会突然涌现出小模型完全没有的新能力——比如推理、数学计算、代码生成。这种"涌现"（Emergence）现象至今还是AI研究的重要课题。

因素④🎯

精心设计的训练方法：不只是读书

GPT不只是把海量文本喂给模型就完事了，还有精心设计的多阶段训练：

• 预训练：海量文本，学习语言规律和世界知识
• 监督微调（SFT）：高质量的问答对，学习"有帮助的回答方式"
• RLHF：人类反馈强化学习，让模型更安全、更有用

参数规模的进化

3
GPT系列的参数规模进化

看看GPT从2018年到今天的参数规模，你就明白"大"意味着什么：

GPT系列参数规模进化史

GPT-12018117M（1.17亿）

GPT的起点，只能做简单的文本生成

GPT-220191.5B（15亿）

会写文章，被OpenAI认为「太危险」而延迟发布

GPT-32020175B（1750亿）

质的飞跃，能写代码、做翻译，引发AI热潮

GPT-42023~1.8T（估计1.8万亿）

多模态能力、通过各种专业考试，接近人类水平

📊 规模定律（Scaling Laws）：

OpenAI在2020年发现：模型性能与参数量、数据量、计算量呈幂律关系。这意味着投入越多资源，模型性能就以可预测的速度提升。这个发现直接推动了"越大越强"的军备竞赛。

LLM的核心工作原理

4
LLM如何工作？一步步拆解

表面上看，你给GPT发一条消息，它就回复你。但背后发生了什么？让我们拆解整个过程：

LLM处理一次对话的完整流程

输入文字

"帮我写一首关于秋天的诗"

Tokenization（分词）

["帮", "我", "写", "一首", "关于", "秋天", "的", "诗"] → [1024, 520, 3032, 8891, ...]

Embedding（嵌入）

每个Token ID → 高维向量（比如4096维）。将离散的ID转化为连续的向量空间，让AI能做数学运算。

Transformer层（注意力机制）

多层Transformer逐层处理，每层都在计算"这个位置应该关注哪些其他位置"。这是理解语义和上下文的核心步骤。

预测下一个Token + 采样

输出层对词表中所有Token打分，选出最可能的下一个Token（如"秋"）。然后把这个Token加入输入，继续预测下一个，直到生成完整回复。

🔄 自回归生成（Auto-regressive）

LLM每次只预测一个Token，然后把这个Token加入上下文，再预测下一个。这就是为什么GPT的回复是"流式"出现的——它在一个词一个词地生成，而不是一次性输出全部内容。

涌现能力：大模型的惊喜

5
涌现能力：没有人预料到的智慧

大模型最神奇的地方，是它具备了研究人员没有主动训练的能力。这些能力在小模型上不存在，但当模型达到足够大的规模，它们就突然"涌现"了出来。

随着规模增大，涌现出的能力

🔢

多步推理

解决需要多步推导的数学和逻辑题

~100B参数后出现

💻

代码生成

理解需求，写出可运行的代码

~50B参数后出现

🔄

思维链推理

一步步思考，最终得出正确答案

~100B参数后出现

🌍

跨语言理解

在没有翻译训练的情况下理解多语言

~7B参数后出现

📝

指令跟随

准确理解和执行复杂的自然语言指令

~50B参数后出现

🎭

角色扮演

扮演特定角色，保持一致的人格

~10B参数后出现

为什么会涌现？🤔

目前还是科学之谜

涌现能力的出现机制至今没有完整的解释。一种猜测是：语言模型在预测文字时，实际上是在学习世界的内在规律（因为语言是对世界的描述）。当模型足够大，这些规律就被充分压缩，从而表现出"理解"和"推理"的能力。

主流大语言模型对比

6
主流大语言模型全景图

2024-2025年主流大语言模型

🤖

GPT-4o

OpenAI 🇺🇸

推理能力强代码质量高多模态

🧠

Claude 3.5 Sonnet

Anthropic 🇺🇸

长文本处理安全性好代码能力强

✨

Gemini 1.5 Pro

Google 🇺🇸

超长上下文（100万Token）多模态Google生态集成

🦙

LLaMA 3 / Qwen / DeepSeek

Meta/阿里/幻方 🌏

开源可部署中文支持好本地运行

🌏 中国的大模型们

国内有文心一言（百度）、通义千问（阿里）、豆包（字节）、DeepSeek、Kimi（月之暗面）等众多大模型。DeepSeek-R1以低成本实现了接近GPT-4的推理能力，在2025年初引发全球关注。

LLM的局限性

7
GPT并非无所不能：它的局限

了解大模型的弱点和局限，是正确使用它的前提：

🤥

幻觉（Hallucination）

LLM会一本正经地编造不存在的事实、虚假的引用、错误的数字。它的目标是"预测合理的下一个词"，而不是"只说真实的话"。

🗓️

知识截止日期（Knowledge Cutoff）

训练数据有截止日期，之后发生的事情模型不知道。GPT-4的训练数据截止到2024年初，最新的新闻、事件它都不了解。

🔢

数学计算弱（原生）

LLM处理的是Token，不是数字。复杂的算术计算对它来说并不天然擅长（虽然配合工具调用后大幅改善）。

💭

没有真正的"理解"

一些研究者认为，LLM是在做"统计推断"而非真正的"理解"。它在语言的表层非常强大，但在某些需要真正逻辑推理的场景下仍会失败。

总结

8
总结

🎓 一句话总结

①LLM = 大 + 语言 + 模型：基于Transformer，参数量超大，专门处理文字
②厉害的原因：海量数据 + Transformer架构 + 超大规模 + 精心设计的训练方法
③工作方式：Token → Embedding → Transformer层 → 预测下一个Token，自回归循环生成
④涌现能力：规模超过阈值后，自动涌现出推理、代码、多语言等没有专门训练的能力
⑤局限性：会幻觉、有知识截止日期、数学弱、没有真正的"理解"

→
下篇预告

第35篇：预训练：AI的「通识教育」

GPT这么厉害，但它是怎么从一个空白模型成长为"万能助手"的？预训练是这个过程最关键的一步。下一篇，我们来详解预训练的原理、数据、目标和挑战。

✏️ 手绘图解 · AI Catch 出品

第 34 篇 / 共 84 篇

大语言模型：为什么GPT这么厉害？

1大语言模型的三个关键词

LLM = 用Transformer做的、参数超多的、专门处理文字的神经网络

2为什么GPT这么厉害？四个关键因素