第 18 篇 · 神经网络基础

超参数:AI的「调味料」

调对了才好吃

做菜的时候,同样的食材,为什么有的人做得好吃,有的人做得难吃?秘诀在于调味料的用量——盐多了太咸,糖少了不甜。

训练AI也是一样。网络架构、学习率、批量大小...这些「超参数」就像是调味料。调对了,AI表现出色;调错了,AI可能完全学不到东西。

今天,我们来看看如何调好这些「调味料」。

1
什么是超参数?

在机器学习中,有两种参数:

模型参数 vs 超参数
模型参数
⚙️

权重和偏置

网络自己学习

  • • 通过训练自动调整
  • • 数量通常很多(百万级)
  • • 目标是拟合数据
超参数
🎛️

人为设定

训练前确定

  • • 需要人工调整
  • • 数量相对较少(几个到几十个)
  • • 控制学习过程

简单记忆:模型参数是AI「学」出来的,超参数是人「定」下来的。

继续看下去

2
哪些超参数最重要?

关键超参数
学习率 (Learning Rate)
📏

最重要!决定每一步迈多大

太大

震荡/发散

刚好

快速收敛

太小

训练太慢

批量大小 (Batch Size)
📦

每次更新用多少样本

小批量 (32-128)

噪声大但泛化好

大批量 (256+)

训练快但需调学习率

网络架构
🏗️

层数、每层神经元数

层数多 → 能力强但容易过拟合
神经元多 → 表达能力增强

正则化强度
⛓️

Dropout率、L2正则化系数

控制模型复杂度,防止过拟合

3
如何调整超参数?

调参策略
网格搜索
🔲

穷举所有组合

在预定义的范围内尝试所有可能

缺点:计算量大

随机搜索
🎲

随机采样

在范围内随机选择参数组合

效率更高

贝叶斯优化
🧠

智能搜索

根据已有结果预测最优方向

最高效但复杂

💡
实践建议:先用随机搜索找到一个大致范围,再在这个范围内精细调整。对于重要项目,可以使用贝叶斯优化工具如Optuna。

4
调参实用技巧

🎯 技巧1:从默认值开始

大多数框架都有合理的默认值。先用默认,有问题再调。Adam优化器默认学习率0.001,Batch Size 32都是不错的起点。

🎯 技巧2:一次只调一个

同时调整多个参数,不知道哪个起了作用。一次调一个,观察效果,记录结果。

🎯 技巧3:用对数尺度搜索

学习率等参数在对数尺度上搜索更有效。试试0.1, 0.01, 0.001, 0.0001,而不是0.1, 0.2, 0.3...

🎯 技巧4:观察学习曲线

画出训练和验证的损失曲线,能直观看出是过拟合、欠拟合,还是学习率不合适。

5
从学习曲线诊断问题

常见学习曲线模式
学习率太大

损失震荡不下降

→ 降低学习率

学习率太小

下降太慢

→ 提高学习率

过拟合

训练好,验证差

→ 增加正则化

欠拟合

两者都差

→ 增加模型复杂度

6
常见误区

❌ 误区1:调参能解决一切问题

如果数据质量差或模型设计有问题,再调参也没用。先确保基础正确,再优化参数。

❌ 误区2:最优参数可以通用

在数据集A上最优的参数,在数据集B上可能很差。每个任务都需要重新调参。

❌ 误区3:超参数越多越好

过多的超参数会增加调参难度。尽量使用有合理默认值的组件,减少需要调参的数量。

总结

🎓 一句话总结

  • 超参数是人为设定的,控制训练过程的参数
  • 最重要的超参数:学习率、批量大小、网络架构
  • 调参方法:网格搜索、随机搜索、贝叶斯优化
  • 通过学习曲线诊断问题,有针对性地调整

第二阶段结束

恭喜完成第二阶段!

你已经了解了神经网络的基础:神经元、网络结构、前向传播、反向传播、过拟合/欠拟合、正则化、激活函数、优化器和超参数。

下一篇开始第三阶段:深度学习架构,我们将探索CNN、RNN、Transformer等现代AI的核心架构。

✏️ 手绘图解 · AI Catch 出品

第 18 篇 / 共 84 篇

第二阶段:神经网络基础 ✅ 完成