第 22 篇 · 深度学习架构

Transformer——NLP的「屠龙刀」

2017年，Google发表了一篇论文《Attention Is All You Need》，提出了Transformer架构。这篇论文彻底改变了自然语言处理（NLP）。

GPT、BERT、ChatGPT、Claude...当今所有最先进的大语言模型，全部基于Transformer。

Transformer凭什么这么强？答案是两个字：注意力。

1
RNN的痛点：顺序计算

RNN必须按顺序处理数据——先处理第一个词，再处理第二个，第三个...这意味着它无法充分利用GPU的并行计算能力，而且有长距离依赖问题。

RNN vs Transformer

RNN

顺序处理

词1

词2

词3

慢，不能并行，长距离依赖差

Transformer

并行处理

词1词2词3

快，充分利用GPU，无长距离依赖

自注意力机制

2
自注意力：模型自己决定看哪里

自注意力机制让模型在处理每个词时，能同时「看到」序列中的所有其他词，并根据相关性分配不同的权重。

自注意力的工作原理

句子：「小明和小红去公园玩，他很喜欢荡秋千。」

「他」

关注「小明」(0.7)

关注「小红」(0.3)

理解：「他」= 小明

🎯

关键点：注意力权重是通过训练学到的，不是硬编码的规则。模型自己学会「哪些词之间关系更密切」。

3
Q、K、V：注意力的三个灵魂

自注意力机制可以拆解成三个概念：

Q (Query)🔍

查询

每个词都提出一个问题：「我想找什么样的信息？」

K (Key)🏷️

键

每个词都有一个标签：「我能提供什么信息？」

V (Value)📦

值

每个词实际携带的信息内容。

类比理解：你去图书馆找书（Q），每本书都有书名和索引（K），你要找的内容就是（V）。你根据Q和K的匹配程度，决定读哪本书的V。

4
编码器-解码器架构

原始Transformer由两部分组成：编码器和解码器。但GPT只用了解码器，BERT只用了编码器。

编码器 vs 解码器

编码器 (BERT)

理解输入

把文本编码成向量表示

应用：文本分类、情感分析、问答系统

解码器 (GPT)

生成输出

根据上下文预测下一个词

应用：文本生成、机器翻译、聊天机器人

总结

🎓 一句话总结

①RNN痛点 = 顺序处理、不能并行、长距离依赖
②自注意力 = 每个词同时关注整个序列，自动学习相关性
③Q/K/V = 查询/键/值，决定注意力如何分配
④架构 = 编码器（理解）+ 解码器（生成）；GPT只用解码器

→
下篇预告

第23篇：生成对抗网络(GAN)——AI的左右互搏

GAN由两个网络组成：生成器负责造假，判别器负责打假。两者互相博弈，最后生成器能造出以假乱真的图片、视频、音乐。下一篇，我们来聊聊这个「左右互搏」的神奇架构。

✏️ 手绘图解 · AI Catch 出品

第 22 篇 / 深度学习架构篇

Transformer——NLP的「屠龙刀」

1RNN的痛点：顺序计算

2自注意力：模型自己决定看哪里

3Q、K、V：注意力的三个灵魂

查询

键

值

4编码器-解码器架构