大语言模型:为什么GPT这么厉害?
从Token到智能,揭秘大语言模型的核心秘密
你可能用过GPT-4或者Claude,被它的能力震惊过:它能写诗、写代码、解数学题、分析合同、聊历史……几乎无所不会。
但它明明只是个"预测下一个词"的模型,为什么能做到这一切?
这其实是AI领域过去十年最惊人的发现之一:当一个语言模型足够大、训练足够多,它会"涌现"出人类都没有预料到的能力。就像水分子本身没有波浪,但足够多的水分子聚在一起就能掀起风浪。
今天我们来聊聊大语言模型的本质:它是什么、为什么厉害、它的能力从哪里来。
1大语言模型的三个关键词
大语言模型(Large Language Model,LLM)——这个名字其实就是它的定义:
大(Large)
参数量在十亿(Billion)级别以上。GPT-3有1750亿参数,GPT-4据说超过1万亿。这里的"大"不只是噱头,而是性能的关键。
语言(Language)
专门处理自然语言(文字)的模型。输入是文字,输出也是文字。区别于处理图像的视觉模型、处理音频的语音模型。
模型(Model)
基于深度学习的神经网络,核心是Transformer架构。通过海量数据训练,学习语言的规律和知识。
LLM = 用Transformer做的、参数超多的、专门处理文字的神经网络
2为什么GPT这么厉害?四个关键因素
GPT的厉害不是一个因素造成的,而是四个因素叠加的结果:
海量训练数据:读了人类几万年的书
Transformer架构:理解上下文的神器
超大规模:量变引起质变
精心设计的训练方法:不只是读书
GPT不只是把海量文本喂给模型就完事了,还有精心设计的多阶段训练:
- • 预训练:海量文本,学习语言规律和世界知识
- • 监督微调(SFT):高质量的问答对,学习"有帮助的回答方式"
- • RLHF:人类反馈强化学习,让模型更安全、更有用
3GPT系列的参数规模进化
看看GPT从2018年到今天的参数规模,你就明白"大"意味着什么:
GPT的起点,只能做简单的文本生成
会写文章,被OpenAI认为「太危险」而延迟发布
质的飞跃,能写代码、做翻译,引发AI热潮
多模态能力、通过各种专业考试,接近人类水平
📊 规模定律(Scaling Laws):
OpenAI在2020年发现:模型性能与参数量、数据量、计算量呈幂律关系。这意味着投入越多资源,模型性能就以可预测的速度提升。这个发现直接推动了"越大越强"的军备竞赛。
4LLM如何工作?一步步拆解
表面上看,你给GPT发一条消息,它就回复你。但背后发生了什么?让我们拆解整个过程:
输入文字
"帮我写一首关于秋天的诗"
Tokenization(分词)
["帮", "我", "写", "一首", "关于", "秋天", "的", "诗"] → [1024, 520, 3032, 8891, ...]
Embedding(嵌入)
每个Token ID → 高维向量(比如4096维)。将离散的ID转化为连续的向量空间,让AI能做数学运算。
Transformer层(注意力机制)
多层Transformer逐层处理,每层都在计算"这个位置应该关注哪些其他位置"。这是理解语义和上下文的核心步骤。
预测下一个Token + 采样
输出层对词表中所有Token打分,选出最可能的下一个Token(如"秋")。然后把这个Token加入输入,继续预测下一个,直到生成完整回复。
🔄 自回归生成(Auto-regressive)
LLM每次只预测一个Token,然后把这个Token加入上下文,再预测下一个。这就是为什么GPT的回复是"流式"出现的——它在一个词一个词地生成,而不是一次性输出全部内容。
5涌现能力:没有人预料到的智慧
大模型最神奇的地方,是它具备了研究人员没有主动训练的能力。这些能力在小模型上不存在,但当模型达到足够大的规模,它们就突然"涌现"了出来。
多步推理
解决需要多步推导的数学和逻辑题
~100B参数后出现
代码生成
理解需求,写出可运行的代码
~50B参数后出现
思维链推理
一步步思考,最终得出正确答案
~100B参数后出现
跨语言理解
在没有翻译训练的情况下理解多语言
~7B参数后出现
指令跟随
准确理解和执行复杂的自然语言指令
~50B参数后出现
角色扮演
扮演特定角色,保持一致的人格
~10B参数后出现
目前还是科学之谜
6主流大语言模型全景图
GPT-4o
OpenAI 🇺🇸
Claude 3.5 Sonnet
Anthropic 🇺🇸
Gemini 1.5 Pro
Google 🇺🇸
LLaMA 3 / Qwen / DeepSeek
Meta/阿里/幻方 🌏
🌏 中国的大模型们
国内有文心一言(百度)、通义千问(阿里)、豆包(字节)、DeepSeek、Kimi(月之暗面)等众多大模型。DeepSeek-R1以低成本实现了接近GPT-4的推理能力,在2025年初引发全球关注。
7GPT并非无所不能:它的局限
了解大模型的弱点和局限,是正确使用它的前提:
幻觉(Hallucination)
LLM会一本正经地编造不存在的事实、虚假的引用、错误的数字。它的目标是"预测合理的下一个词",而不是"只说真实的话"。
知识截止日期(Knowledge Cutoff)
训练数据有截止日期,之后发生的事情模型不知道。GPT-4的训练数据截止到2024年初,最新的新闻、事件它都不了解。
数学计算弱(原生)
LLM处理的是Token,不是数字。复杂的算术计算对它来说并不天然擅长(虽然配合工具调用后大幅改善)。
没有真正的"理解"
一些研究者认为,LLM是在做"统计推断"而非真正的"理解"。它在语言的表层非常强大,但在某些需要真正逻辑推理的场景下仍会失败。
8总结
🎓 一句话总结
- ①LLM = 大 + 语言 + 模型:基于Transformer,参数量超大,专门处理文字
- ②厉害的原因:海量数据 + Transformer架构 + 超大规模 + 精心设计的训练方法
- ③工作方式:Token → Embedding → Transformer层 → 预测下一个Token,自回归循环生成
- ④涌现能力:规模超过阈值后,自动涌现出推理、代码、多语言等没有专门训练的能力
- ⑤局限性:会幻觉、有知识截止日期、数学弱、没有真正的"理解"
→下篇预告
第35篇:预训练:AI的「通识教育」
GPT这么厉害,但它是怎么从一个空白模型成长为"万能助手"的?预训练是这个过程最关键的一步。下一篇,我们来详解预训练的原理、数据、目标和挑战。
✏️ 手绘图解 · AI Catch 出品
第 34 篇 / 共 84 篇