第 21 篇 · 深度学习架构

循环神经网络(RNN)——处理序列数据的秘密武器

CNN擅长处理图片,但如果数据有「顺序」呢?比如一句话「今天天气很好」,你必须按顺序读才能理解。再比如语音、股票走势、DNA序列——这些都需要考虑上下文。

RNN(循环神经网络)就是为序列数据而生的。它的核心思想:把上一步的信息传递到下一步

1
隐藏状态 = 记忆

RNN有一个特殊的结构:隐藏状态(hidden state)。每处理一个词,它会更新这个隐藏状态,并把更新后的状态传给下一个词。

RNN处理序列的流程

输入:「今天」

更新隐藏状态

输出部分结果

输入:「天气」

更新隐藏状态(带之前信息)

输出部分结果

🧠
类比理解:你读句子的时候,每读完一个词,大脑都会更新当前的理解(这就是隐藏状态),并带着这个理解读下一个词。RNN就在模拟这个过程。
长距离依赖问题

2
RNN的致命弱点:长距离依赖

RNN看起来很美好,但它有个严重问题:梯度消失。当序列很长时,最开始的信息在传递过程中会逐渐被「稀释」,最终几乎丢失。

信息随时间传递的衰减
t-5
信息强度:1.00
t-4
信息强度:0.80
t-3
信息强度:0.60
t-2
信息强度:0.40
t-1
信息强度:0.20
t(当前时刻)

最初的信息几乎消失了

📚 例子

句子:「小明住在上海。他...(中间有100个字)...昨天买了一把新雨伞。」

RNN可能很难记住「上海」这个关键信息,导致在理解「新雨伞」时丢失上下文。

3
解决方案:LSTM和GRU

为了解决长距离依赖问题,研究者提出了LSTM(长短期记忆网络)和GRU(门控循环单元)。它们的秘诀是:用「门控机制」控制信息的流动。

LSTM🚪

长短期记忆网络

用遗忘门、输入门、输出门精细控制:保留什么重要信息、丢弃什么无关信息、输出什么结果。
GRU

门控循环单元

LSTM的简化版,门控机制更简单,训练更快,效果也很不错。

类比理解:LSTM就像是你的大脑在阅读时,会主动判断哪些信息值得记住(比如关键人物、地点),哪些可以忽略(比如无关的细节)。

4
RNN家族的应用

RNN及其变体广泛应用于序列任务:

语言模型

预测下一个词:Google搜索补全、键盘智能预测

机器翻译

Seq2Seq模型:把一种语言翻译成另一种

语音识别

把语音转成文字:Siri、语音输入

时间序列预测

股票预测、天气预测、销量预测

总结

🎓 一句话总结

  • RNN核心 = 隐藏状态传递信息,理解序列上下文
  • RNN弱点 = 长距离依赖(梯度消失),前面信息容易丢失
  • LSTM/GRU = 用门控机制控制信息流动,解决长距离依赖
  • 应用 = 语言模型、机器翻译、语音识别、时间序列

下篇预告

第22篇:Transformer——NLP的「屠龙刀」

2017年Google提出的Transformer彻底改变了NLP。它抛弃了循环结构,用「自注意力」机制让模型能同时关注序列的任意部分。GPT、BERT这些大佬都是基于Transformer。下一篇,我们来拆解这个改变历史的架构。

✏️ 手绘图解 · AI Catch 出品

第 21 篇 / 深度学习架构篇