第 22 篇 · 深度学习架构
Transformer——NLP的「屠龙刀」
2017年,Google发表了一篇论文《Attention Is All You Need》,提出了Transformer架构。这篇论文彻底改变了自然语言处理(NLP)。
GPT、BERT、ChatGPT、Claude...当今所有最先进的大语言模型,全部基于Transformer。
Transformer凭什么这么强?答案是两个字:注意力。
1RNN的痛点:顺序计算
RNN必须按顺序处理数据——先处理第一个词,再处理第二个,第三个...这意味着它无法充分利用GPU的并行计算能力,而且有长距离依赖问题。
RNN vs Transformer
RNN
顺序处理
词1词2词3
慢,不能并行,长距离依赖差
Transformer
并行处理
词1词2词3
快,充分利用GPU,无长距离依赖
自注意力机制
2自注意力:模型自己决定看哪里
自注意力机制让模型在处理每个词时,能同时「看到」序列中的所有其他词,并根据相关性分配不同的权重。
自注意力的工作原理
句子:「小明和小红去公园玩,他很喜欢荡秋千。」
「他」
关注「小明」(0.7)
关注「小红」(0.3)
理解:「他」= 小明
🎯
关键点:注意力权重是通过训练学到的,不是硬编码的规则。模型自己学会「哪些词之间关系更密切」。
3Q、K、V:注意力的三个灵魂
自注意力机制可以拆解成三个概念:
Q (Query)🔍
查询
每个词都提出一个问题:「我想找什么样的信息?」
K (Key)🏷️
键
每个词都有一个标签:「我能提供什么信息?」
V (Value)📦
值
每个词实际携带的信息内容。
类比理解:你去图书馆找书(Q),每本书都有书名和索引(K),你要找的内容就是(V)。你根据Q和K的匹配程度,决定读哪本书的V。
4编码器-解码器架构
原始Transformer由两部分组成:编码器和解码器。但GPT只用了解码器,BERT只用了编码器。
编码器 vs 解码器
编码器 (BERT)
理解输入
把文本编码成向量表示
应用:文本分类、情感分析、问答系统
解码器 (GPT)
生成输出
根据上下文预测下一个词
应用:文本生成、机器翻译、聊天机器人
总结
🎓 一句话总结
- ①RNN痛点 = 顺序处理、不能并行、长距离依赖
- ②自注意力 = 每个词同时关注整个序列,自动学习相关性
- ③Q/K/V = 查询/键/值,决定注意力如何分配
- ④架构 = 编码器(理解)+ 解码器(生成);GPT只用解码器
→下篇预告
第23篇:生成对抗网络(GAN)——AI的左右互搏
GAN由两个网络组成:生成器负责造假,判别器负责打假。两者互相博弈,最后生成器能造出以假乱真的图片、视频、音乐。下一篇,我们来聊聊这个「左右互搏」的神奇架构。
✏️ 手绘图解 · AI Catch 出品
第 22 篇 / 深度学习架构篇