第 22 篇 · 深度学习架构

Transformer——NLP的「屠龙刀」

2017年,Google发表了一篇论文《Attention Is All You Need》,提出了Transformer架构。这篇论文彻底改变了自然语言处理(NLP)。

GPT、BERT、ChatGPT、Claude...当今所有最先进的大语言模型,全部基于Transformer。

Transformer凭什么这么强?答案是两个字:注意力

1
RNN的痛点:顺序计算

RNN必须按顺序处理数据——先处理第一个词,再处理第二个,第三个...这意味着它无法充分利用GPU的并行计算能力,而且有长距离依赖问题。

RNN vs Transformer
RNN

顺序处理

词1
词2
词3

慢,不能并行,长距离依赖差

Transformer

并行处理

词1词2词3

快,充分利用GPU,无长距离依赖

自注意力机制

2
自注意力:模型自己决定看哪里

自注意力机制让模型在处理每个词时,能同时「看到」序列中的所有其他词,并根据相关性分配不同的权重。

自注意力的工作原理
句子:「小明和小红去公园玩,他很喜欢荡秋千。」

「他」

关注「小明」(0.7)

关注「小红」(0.3)

理解:「他」= 小明

🎯
关键点:注意力权重是通过训练学到的,不是硬编码的规则。模型自己学会「哪些词之间关系更密切」。

3
Q、K、V:注意力的三个灵魂

自注意力机制可以拆解成三个概念:

Q (Query)🔍

查询

每个词都提出一个问题:「我想找什么样的信息?」
K (Key)🏷️

每个词都有一个标签:「我能提供什么信息?」
V (Value)📦

每个词实际携带的信息内容。

类比理解:你去图书馆找书(Q),每本书都有书名和索引(K),你要找的内容就是(V)。你根据Q和K的匹配程度,决定读哪本书的V。

4
编码器-解码器架构

原始Transformer由两部分组成:编码器和解码器。但GPT只用了解码器,BERT只用了编码器。

编码器 vs 解码器
编码器 (BERT)

理解输入

把文本编码成向量表示

应用:文本分类、情感分析、问答系统

解码器 (GPT)

生成输出

根据上下文预测下一个词

应用:文本生成、机器翻译、聊天机器人

总结

🎓 一句话总结

  • RNN痛点 = 顺序处理、不能并行、长距离依赖
  • 自注意力 = 每个词同时关注整个序列,自动学习相关性
  • Q/K/V = 查询/键/值,决定注意力如何分配
  • 架构 = 编码器(理解)+ 解码器(生成);GPT只用解码器

下篇预告

第23篇:生成对抗网络(GAN)——AI的左右互搏

GAN由两个网络组成:生成器负责造假,判别器负责打假。两者互相博弈,最后生成器能造出以假乱真的图片、视频、音乐。下一篇,我们来聊聊这个「左右互搏」的神奇架构。

✏️ 手绘图解 · AI Catch 出品

第 22 篇 / 深度学习架构篇