超参数:AI的「调味料」
调对了才好吃
做菜的时候,同样的食材,为什么有的人做得好吃,有的人做得难吃?秘诀在于调味料的用量——盐多了太咸,糖少了不甜。
训练AI也是一样。网络架构、学习率、批量大小...这些「超参数」就像是调味料。调对了,AI表现出色;调错了,AI可能完全学不到东西。
今天,我们来看看如何调好这些「调味料」。
1什么是超参数?
在机器学习中,有两种参数:
权重和偏置
网络自己学习
- • 通过训练自动调整
- • 数量通常很多(百万级)
- • 目标是拟合数据
人为设定
训练前确定
- • 需要人工调整
- • 数量相对较少(几个到几十个)
- • 控制学习过程
简单记忆:模型参数是AI「学」出来的,超参数是人「定」下来的。
2哪些超参数最重要?
最重要!决定每一步迈多大
太大
震荡/发散
刚好
快速收敛
太小
训练太慢
每次更新用多少样本
小批量 (32-128)
噪声大但泛化好
大批量 (256+)
训练快但需调学习率
层数、每层神经元数
层数多 → 能力强但容易过拟合
神经元多 → 表达能力增强
Dropout率、L2正则化系数
控制模型复杂度,防止过拟合
3如何调整超参数?
穷举所有组合
在预定义的范围内尝试所有可能
缺点:计算量大
随机采样
在范围内随机选择参数组合
效率更高
智能搜索
根据已有结果预测最优方向
最高效但复杂
4调参实用技巧
🎯 技巧1:从默认值开始
大多数框架都有合理的默认值。先用默认,有问题再调。Adam优化器默认学习率0.001,Batch Size 32都是不错的起点。
🎯 技巧2:一次只调一个
同时调整多个参数,不知道哪个起了作用。一次调一个,观察效果,记录结果。
🎯 技巧3:用对数尺度搜索
学习率等参数在对数尺度上搜索更有效。试试0.1, 0.01, 0.001, 0.0001,而不是0.1, 0.2, 0.3...
🎯 技巧4:观察学习曲线
画出训练和验证的损失曲线,能直观看出是过拟合、欠拟合,还是学习率不合适。
5从学习曲线诊断问题
损失震荡不下降
→ 降低学习率
下降太慢
→ 提高学习率
训练好,验证差
→ 增加正则化
两者都差
→ 增加模型复杂度
6常见误区
❌ 误区1:调参能解决一切问题
如果数据质量差或模型设计有问题,再调参也没用。先确保基础正确,再优化参数。
❌ 误区2:最优参数可以通用
在数据集A上最优的参数,在数据集B上可能很差。每个任务都需要重新调参。
❌ 误区3:超参数越多越好
过多的超参数会增加调参难度。尽量使用有合理默认值的组件,减少需要调参的数量。
🎓 一句话总结
- ①超参数是人为设定的,控制训练过程的参数
- ②最重要的超参数:学习率、批量大小、网络架构
- ③调参方法:网格搜索、随机搜索、贝叶斯优化
- ④通过学习曲线诊断问题,有针对性地调整
→第二阶段结束
恭喜完成第二阶段!
你已经了解了神经网络的基础:神经元、网络结构、前向传播、反向传播、过拟合/欠拟合、正则化、激活函数、优化器和超参数。
下一篇开始第三阶段:深度学习架构,我们将探索CNN、RNN、Transformer等现代AI的核心架构。
✏️ 手绘图解 · AI Catch 出品
第 18 篇 / 共 84 篇
第二阶段:神经网络基础 ✅ 完成