第 34 篇 · LLM基础

大语言模型:为什么GPT这么厉害

从Token到智能,揭秘大语言模型的核心秘密

你可能用过GPT-4或者Claude,被它的能力震惊过:它能写诗、写代码、解数学题、分析合同、聊历史……几乎无所不会。

但它明明只是个"预测下一个词"的模型,为什么能做到这一切?

这其实是AI领域过去十年最惊人的发现之一:当一个语言模型足够大、训练足够多,它会"涌现"出人类都没有预料到的能力。就像水分子本身没有波浪,但足够多的水分子聚在一起就能掀起风浪。

今天我们来聊聊大语言模型的本质:它是什么、为什么厉害、它的能力从哪里来。

大语言模型是什么

1
大语言模型的三个关键词

大语言模型(Large Language Model,LLM)——这个名字其实就是它的定义:

LLM = 大 + 语言 + 模型
📏

大(Large)

参数量在十亿(Billion)级别以上。GPT-3有1750亿参数,GPT-4据说超过1万亿。这里的"大"不只是噱头,而是性能的关键。

💬

语言(Language)

专门处理自然语言(文字)的模型。输入是文字,输出也是文字。区别于处理图像的视觉模型、处理音频的语音模型。

🧠

模型(Model)

基于深度学习的神经网络,核心是Transformer架构。通过海量数据训练,学习语言的规律和知识。

一句话总结🎯

LLM = 用Transformer做的、参数超多的、专门处理文字的神经网络

它的本质任务很简单:给定一段文字,预测下一个Token是什么。但正是这个简单的任务,在海量数据和超大规模下,催生了惊人的智能。
为什么GPT这么厉害

2
为什么GPT这么厉害?四个关键因素

GPT的厉害不是一个因素造成的,而是四个因素叠加的结果:

因素①📚

海量训练数据:读了人类几万年的书

GPT-4的训练数据包含来自互联网的万亿级别文本——网页、书籍、代码、论文、新闻……据估计相当于几万年的人类阅读量。你能写代码,是因为你学过编程;你能讲历史,是因为你读过历史书。GPT能做这些,是因为它"读"过人类写的几乎所有内容。
因素②🏗️

Transformer架构:理解上下文的神器

自注意力机制(Self-Attention)让AI能同时关注整个序列中的所有位置,理解词与词之间的关系,捕捉长距离的依赖关系。比如"苹果手机太贵了,但它值这个价"——AI能理解"它"指的是"苹果手机",而不是"苹果"(水果)。这种上下文理解能力,是LLM厉害的基础。
因素③📈

超大规模:量变引起质变

规模定律(Scaling Laws)显示:模型参数量、数据量、计算量与性能之间存在幂律关系。简单说,越大越强。更重要的是,当模型达到某个规模阈值,会突然涌现出小模型完全没有的新能力——比如推理、数学计算、代码生成。这种"涌现"(Emergence)现象至今还是AI研究的重要课题。
因素④🎯

精心设计的训练方法:不只是读书

GPT不只是把海量文本喂给模型就完事了,还有精心设计的多阶段训练:

  • 预训练:海量文本,学习语言规律和世界知识
  • 监督微调(SFT):高质量的问答对,学习"有帮助的回答方式"
  • RLHF:人类反馈强化学习,让模型更安全、更有用
参数规模的进化

3
GPT系列的参数规模进化

看看GPT从2018年到今天的参数规模,你就明白"大"意味着什么:

GPT系列参数规模进化史
GPT-12018117M(1.17亿)

GPT的起点,只能做简单的文本生成

GPT-220191.5B(15亿)

会写文章,被OpenAI认为「太危险」而延迟发布

GPT-32020175B(1750亿)

质的飞跃,能写代码、做翻译,引发AI热潮

GPT-42023~1.8T(估计1.8万亿)

多模态能力、通过各种专业考试,接近人类水平

📊 规模定律(Scaling Laws):

OpenAI在2020年发现:模型性能与参数量、数据量、计算量呈幂律关系。这意味着投入越多资源,模型性能就以可预测的速度提升。这个发现直接推动了"越大越强"的军备竞赛。

LLM的核心工作原理

4
LLM如何工作?一步步拆解

表面上看,你给GPT发一条消息,它就回复你。但背后发生了什么?让我们拆解整个过程:

LLM处理一次对话的完整流程
1

输入文字

"帮我写一首关于秋天的诗"

2

Tokenization(分词)

["帮", "我", "写", "一首", "关于", "秋天", "的", "诗"] → [1024, 520, 3032, 8891, ...]

3

Embedding(嵌入)

每个Token ID → 高维向量(比如4096维)。将离散的ID转化为连续的向量空间,让AI能做数学运算。

4

Transformer层(注意力机制)

多层Transformer逐层处理,每层都在计算"这个位置应该关注哪些其他位置"。这是理解语义和上下文的核心步骤。

5

预测下一个Token + 采样

输出层对词表中所有Token打分,选出最可能的下一个Token(如"秋")。然后把这个Token加入输入,继续预测下一个,直到生成完整回复。

🔄 自回归生成(Auto-regressive)

LLM每次只预测一个Token,然后把这个Token加入上下文,再预测下一个。这就是为什么GPT的回复是"流式"出现的——它在一个词一个词地生成,而不是一次性输出全部内容。

涌现能力:大模型的惊喜

5
涌现能力:没有人预料到的智慧

大模型最神奇的地方,是它具备了研究人员没有主动训练的能力。这些能力在小模型上不存在,但当模型达到足够大的规模,它们就突然"涌现"了出来。

随着规模增大,涌现出的能力
🔢

多步推理

解决需要多步推导的数学和逻辑题

~100B参数后出现

💻

代码生成

理解需求,写出可运行的代码

~50B参数后出现

🔄

思维链推理

一步步思考,最终得出正确答案

~100B参数后出现

🌍

跨语言理解

在没有翻译训练的情况下理解多语言

~7B参数后出现

📝

指令跟随

准确理解和执行复杂的自然语言指令

~50B参数后出现

🎭

角色扮演

扮演特定角色,保持一致的人格

~10B参数后出现

为什么会涌现?🤔

目前还是科学之谜

涌现能力的出现机制至今没有完整的解释。一种猜测是:语言模型在预测文字时,实际上是在学习世界的内在规律(因为语言是对世界的描述)。当模型足够大,这些规律就被充分压缩,从而表现出"理解"和"推理"的能力。
主流大语言模型对比

6
主流大语言模型全景图

2024-2025年主流大语言模型
🤖

GPT-4o

OpenAI 🇺🇸

推理能力强代码质量高多模态
🧠

Claude 3.5 Sonnet

Anthropic 🇺🇸

长文本处理安全性好代码能力强

Gemini 1.5 Pro

Google 🇺🇸

超长上下文(100万Token)多模态Google生态集成
🦙

LLaMA 3 / Qwen / DeepSeek

Meta/阿里/幻方 🌏

开源可部署中文支持好本地运行

🌏 中国的大模型们

国内有文心一言(百度)、通义千问(阿里)、豆包(字节)、DeepSeek、Kimi(月之暗面)等众多大模型。DeepSeek-R1以低成本实现了接近GPT-4的推理能力,在2025年初引发全球关注。

LLM的局限性

7
GPT并非无所不能:它的局限

了解大模型的弱点和局限,是正确使用它的前提:

🤥

幻觉(Hallucination)

LLM会一本正经地编造不存在的事实、虚假的引用、错误的数字。它的目标是"预测合理的下一个词",而不是"只说真实的话"。

🗓️

知识截止日期(Knowledge Cutoff)

训练数据有截止日期,之后发生的事情模型不知道。GPT-4的训练数据截止到2024年初,最新的新闻、事件它都不了解。

🔢

数学计算弱(原生)

LLM处理的是Token,不是数字。复杂的算术计算对它来说并不天然擅长(虽然配合工具调用后大幅改善)。

💭

没有真正的"理解"

一些研究者认为,LLM是在做"统计推断"而非真正的"理解"。它在语言的表层非常强大,但在某些需要真正逻辑推理的场景下仍会失败。

总结

8
总结

🎓 一句话总结

  • LLM = 大 + 语言 + 模型:基于Transformer,参数量超大,专门处理文字
  • 厉害的原因:海量数据 + Transformer架构 + 超大规模 + 精心设计的训练方法
  • 工作方式:Token → Embedding → Transformer层 → 预测下一个Token,自回归循环生成
  • 涌现能力:规模超过阈值后,自动涌现出推理、代码、多语言等没有专门训练的能力
  • 局限性:会幻觉、有知识截止日期、数学弱、没有真正的"理解"

下篇预告

第35篇:预训练:AI的「通识教育」

GPT这么厉害,但它是怎么从一个空白模型成长为"万能助手"的?预训练是这个过程最关键的一步。下一篇,我们来详解预训练的原理、数据、目标和挑战。

✏️ 手绘图解 · AI Catch 出品

第 34 篇 / 共 84 篇