第 15 篇 · 神经网络基础

正则化:给AI加上「紧箍咒」

防止它过度学习

还记得《西游记》里的紧箍咒吗?唐僧一念咒,孙悟空就头疼,不得不听话。

AI训练也需要「紧箍咒」。没有约束的AI会过度学习训练数据中的噪声,导致过拟合。正则化(Regularization)就是给AI戴上的紧箍咒——让它不能太「任性」。

今天,我们来看看正则化是如何工作的。

1
什么是正则化?

正则化的核心思想很简单:惩罚复杂度

正则化的核心思想

新的目标 = 拟合训练数据 + 惩罚模型复杂度

没有正则化

目标 = 训练误差

只关心拟合训练数据

→ 容易过拟合

有正则化

目标 = 训练误差 + λ×复杂度

平衡拟合和简单

→ 更好的泛化

⚖️
λ(lambda)是正则化强度。λ越大,对复杂度的惩罚越重,模型越简单;λ越小,模型越自由,但可能过拟合。
继续看下去

2
L1和L2正则化

最常见的两种正则化方法是L1和L2,它们惩罚权重的方式不同。

L1 vs L2 正则化
L1 正则化 (Lasso)

惩罚 = |w₁| + |w₂| + ...

(权重的绝对值之和)

  • ✅ 产生稀疏权重
  • ✅ 自动特征选择
  • ✅ 很多权重变成0
  • 💡 适合特征很多的情况
L2 正则化 (Ridge)

惩罚 = w₁² + w₂² + ...

(权重的平方和)

  • ✅ 权重都变小,但不为0
  • ✅ 更平滑的决策边界
  • ✅ 计算更稳定
  • 💡 深度学习中最常用
可视化对比
L1: 菱形约束最优解在顶点某些权重 = 0L2: 圆形约束最优解在边上所有权重都小

3
Dropout:随机「关掉」神经元

Dropout是深度学习中非常流行的正则化技术,它的思想很巧妙:训练时随机让一些神经元「休眠」。

Dropout的工作原理

正常网络

Dropout后

30%神经元被随机关闭

为什么有效?强迫神经元不能依赖其他特定神经元,必须学会更鲁棒的特征。就像团队合作,不能依赖某个特定成员。

🎯
Dropout率通常设为0.2-0.5(20%-50%的神经元被关闭)。测试时所有神经元都工作,但输出要乘以dropout率来补偿。

4
其他正则化方法

早停 (Early Stopping)
⏹️

监控验证集性能,不再提升就停止

防止训练过久导致过拟合,简单有效

数据增强 (Data Augmentation)
🔄

对训练数据进行变换扩充

图片:旋转、翻转、裁剪;文本:同义词替换

批归一化 (Batch Normalization)
📊

对每层输入进行归一化

稳定训练,有一定正则化效果

5
常见误区

❌ 误区1:正则化越强越好

太强的正则化会导致欠拟合。需要在拟合能力和泛化能力之间找到平衡。

❌ 误区2:所有问题都需要正则化

如果数据很多、模型相对简单,可能不需要正则化。正则化是解决特定问题的工具。

❌ 误区3:正则化可以替代更多数据

正则化是「锦上添花」,不是「雪中送炭」。更多、更好的数据永远是最好的解决方案。

总结

🎓 一句话总结

  • 正则化 = 惩罚模型复杂度,防止过拟合
  • L1产生稀疏权重,L2让权重都变小
  • Dropout随机关闭神经元,强迫学习鲁棒特征
  • 还有早停、数据增强、批归一化等方法

下篇预告

第16篇:激活函数——AI的「开关」,决定信号要不要通过

神经元需要决定是否「点火」传递信号,这个决定就是由激活函数做出的。下一篇,我们来看看激活函数是如何工作的。

✏️ 手绘图解 · AI Catch 出品

第 15 篇 / 共 84 篇