第 20 篇 · 深度学习架构

卷积神经网络（CNN）——计算机视觉的基石

在深度学习的「武器库」中，CNN（卷积神经网络）是处理图像的绝对主角。它能识别猫的脸、识别人写的字、理解医疗影像、让自动驾驶汽车看清路况。

它的核心秘密就是两个字：卷积。

1
卷积核 = 移动的小窗口

想象你手里拿着一个3×3的小方框（这就是卷积核），在一张大图片上从左到右、从上到下慢慢滑动。每到一个位置，这个小方框都会计算一次。

卷积操作示意

滑动窗口

每个位置都做一次计算

🔍

关键点：卷积核的参数是共享的——同一个卷积核在整个图片上滑动，用同一套参数去检测特征。这大大减少了参数数量，也符合「边缘/纹理在不同位置都一样」的直觉。

三大组件

2
CNN的三大组件

卷积层

提取特征

用多个卷积核并行提取不同特征：边缘、纹理、形状...

池化层

降维

最大池化：取每个小区域的最大值，保留最显著的特征，减少计算量

全连接层

分类

把前面的特征展平，用传统神经网络做最终分类

3
经典CNN架构

有几个经典的CNN架构推动了计算机视觉的发展：

LeNet-5📱

最早的实用CNN

1998年提出，用于识别手写数字。结构简单：2个卷积层 + 2个池化层 + 全连接层。

AlexNet🏆

引爆深度学习

2012年ImageNet竞赛冠军，用深度网络（8层）大幅降低错误率，开启了深度学习时代。

VGG/ResNet🔥

走向更深层

VGG用更小的卷积核（3×3）堆叠更深的网络；ResNet引入残差连接，解决了深层网络训练困难的问题。

4
为什么CNN这么适合图像？

因为图像有两个特点，CNN天生就适应：

CNN vs 全连接网络

全连接网络

每个像素都连接到每个神经元

参数爆炸、忽略局部关系、无法平移不变

CNN

局部连接 + 参数共享

参数少、捕获局部特征、平移不变性

类比理解：你看猫的时候，不是逐个像素去想，而是先看到耳朵、眼睛、胡须这些局部特征。CNN也是这样，它先识别局部模式，再组合成整体概念。

总结

🎓 一句话总结

①卷积核 = 移动的小窗口，参数共享，提取局部特征
②CNN三大组件 = 卷积层（提取）+ 池化层（降维）+ 全连接层（分类）
③经典架构 = LeNet（最早）、AlexNet（开启时代）、ResNet（超深网络）
④优势 = 局部连接、参数共享、平移不变，完美适配图像

→
下篇预告

第21篇：循环神经网络(RNN)——处理序列的秘密武器

文本、语音、时间序列...这些数据都有「顺序」的概念。RNN能把之前的信息传递给下一步，理解上下文。但它有个致命问题：长距离依赖。下一篇，我们来聊聊RNN和它的改进版。

✏️ 手绘图解 · AI Catch 出品

第 20 篇 / 深度学习架构篇

卷积神经网络（CNN）——计算机视觉的基石

1卷积核 = 移动的小窗口

2CNN的三大组件

3经典CNN架构