第 20 篇 · 深度学习架构
卷积神经网络(CNN)——计算机视觉的基石
在深度学习的「武器库」中,CNN(卷积神经网络)是处理图像的绝对主角。它能识别猫的脸、识别人写的字、理解医疗影像、让自动驾驶汽车看清路况。
它的核心秘密就是两个字:卷积。
1卷积核 = 移动的小窗口
想象你手里拿着一个3×3的小方框(这就是卷积核),在一张大图片上从左到右、从上到下慢慢滑动。每到一个位置,这个小方框都会计算一次。
卷积操作示意
x1
x2
x3
x4
x5
x6
x7
x8
x9
滑动窗口
每个位置都做一次计算
🔍
关键点:卷积核的参数是共享的——同一个卷积核在整个图片上滑动,用同一套参数去检测特征。这大大减少了参数数量,也符合「边缘/纹理在不同位置都一样」的直觉。
三大组件
2CNN的三大组件
卷积层
提取特征
用多个卷积核并行提取不同特征:边缘、纹理、形状...
池化层
降维
最大池化:取每个小区域的最大值,保留最显著的特征,减少计算量
全连接层
分类
把前面的特征展平,用传统神经网络做最终分类
3经典CNN架构
有几个经典的CNN架构推动了计算机视觉的发展:
LeNet-5📱
最早的实用CNN
1998年提出,用于识别手写数字。结构简单:2个卷积层 + 2个池化层 + 全连接层。
AlexNet🏆
引爆深度学习
2012年ImageNet竞赛冠军,用深度网络(8层)大幅降低错误率,开启了深度学习时代。
VGG/ResNet🔥
走向更深层
VGG用更小的卷积核(3×3)堆叠更深的网络;ResNet引入残差连接,解决了深层网络训练困难的问题。
4为什么CNN这么适合图像?
因为图像有两个特点,CNN天生就适应:
CNN vs 全连接网络
全连接网络
每个像素都连接到每个神经元
参数爆炸、忽略局部关系、无法平移不变
CNN
局部连接 + 参数共享
参数少、捕获局部特征、平移不变性
类比理解:你看猫的时候,不是逐个像素去想,而是先看到耳朵、眼睛、胡须这些局部特征。CNN也是这样,它先识别局部模式,再组合成整体概念。
总结
🎓 一句话总结
- ①卷积核 = 移动的小窗口,参数共享,提取局部特征
- ②CNN三大组件 = 卷积层(提取)+ 池化层(降维)+ 全连接层(分类)
- ③经典架构 = LeNet(最早)、AlexNet(开启时代)、ResNet(超深网络)
- ④优势 = 局部连接、参数共享、平移不变,完美适配图像
→下篇预告
第21篇:循环神经网络(RNN)——处理序列的秘密武器
文本、语音、时间序列...这些数据都有「顺序」的概念。RNN能把之前的信息传递给下一步,理解上下文。但它有个致命问题:长距离依赖。下一篇,我们来聊聊RNN和它的改进版。
✏️ 手绘图解 · AI Catch 出品
第 20 篇 / 深度学习架构篇