返回文章列表
基础概念第 6 课

训练就是让AI从错误中学习

一次次改进

2026年3月27日11 分钟阅读

1
学骑自行车的过程

你学骑自行车时是怎么学的?

学习骑车的循环
第1步上车,尝试骑
第2步摔跤(犯错)
第3步分析:为什么摔?(找错误原因)
第4步调整:身体往左偏一点(改进)
第5步再试一次(重复)

经过几百次这样的循环,你就学会了。

从新手到高手
第1次
🚲💥

摔了10次

只会骑1米

第10次
🚲🎯

偶尔摔跤

能骑10米

第100次
🚲🏆

基本不摔

熟练骑行

核心类比:AI训练 = 学骑自行车。不断尝试 → 犯错 → 找原因 → 调整 → 再尝试。

2
AI训练的三个步骤

AI训练也是同样的循环,只是用数学的方式:

AI训练循环
前向传播
📥

输入数据

模型做出预测

计算损失
📊

对比预测和正确答案

算出错得多离谱

反向传播
🔄

根据错误调整模型参数

让下次预测更准

重复
🔁

用新数据再来一次

重复几百万次

训练循环的关键概念

  • 📈 损失函数:衡量预测错误的程度
  • 📉 梯度下降:沿着损失减少的方向调整参数
  • 📊 学习率:每次调整参数的步长大小
  • 🔄 迭代次数:训练循环重复的次数

3
一个训练的例子

假设我们要训练一个模型识别手写数字「3」:

训练过程示例

1️⃣

第1次:输入「3」的图片 → 模型猜「可能是5?」→ 错了!损失很大 → 调整参数

2️⃣

第100次:输入「3」的图片 → 模型猜「可能是3?」→ 对了!损失变小 → 微调参数

3️⃣

第10000次:输入「3」的图片 → 模型 confident 地说「这是3!」→ 几乎没错

损失函数下降曲线

损失值

训练轮次

📉

随着训练进行,模型的预测越来越准,损失越来越小。

4
训练需要多久?

这取决于几个因素:

  • 数据量:几百万张图片 vs 几亿张图片
  • 模型大小:几百万参数 vs 几千亿参数
  • 算力:一块GPU vs 几千块GPU
  • 任务复杂度:识别猫狗 vs 理解人类语言

实际案例

• 小模型(识别手写数字):几分钟到几小时

• 中等模型(图像分类):几天到几周

• 大模型(GPT-4级别):几个月,花费数千万美元

训练成本对比
小模型训练
10M 参数 | 1张GPU💰

成本:几十到几百美元

中等模型训练
1B 参数 | 10-100张GPU💰💰

成本:几千到几万美元

大模型训练
100B+ 参数 | 1000+张GPU💰💰💰💰

成本:几百万到几千万美元

5
训练中的常见问题

训练不是一帆风顺的,常见问题包括:

训练问题诊断
过拟合

在训练数据上表现好,但在新数据上表现差

症状:训练损失下降,测试损失上升

解决:增加数据、正则化、早停

欠拟合

训练数据和测试数据都表现差

症状:训练损失不下降

解决:增加模型复杂度、训练更久

梯度消失

深层网络中梯度越来越小

症状:前面层学不到东西

解决:使用ReLU、批归一化、残差连接

训练不稳定

损失波动大,无法收敛

症状:损失忽高忽低

解决:调整学习率、使用优化器技巧

训练最佳实践

  • 📊 监控训练:实时跟踪损失和准确率
  • 🎯 验证集:用独立数据评估模型
  • ⏸️ 早停机制:验证集不再提升时停止训练
  • 💾 模型检查点:定期保存最佳模型
  • 🔧 超参数调优:学习率、批大小、优化器选择

6
训练 vs 微调

除了从头训练,还有一种更高效的方式:微调

训练 vs 微调
从零训练

🎓 从随机初始化开始

📚 需要大量数据

⚡ 需要强大算力

⏱️ 耗时很长

💰 成本高昂

微调

🎯 基于预训练模型

📊 只需要少量数据

⚡ 普通算力即可

⏱️ 快速完成

💰 成本低廉

关键洞察:微调就像在大学基础上学专业知识,比从头学小学→中学→大学快得多。这就是为什么现在大多数AI应用都使用微调。

7
总结

核心要点

  • ✅ 训练 = 让AI从错误中学习的过程
  • ✅ 循环:预测 → 算损失 → 调参数 → 重复
  • ✅ 训练需要大量数据和算力
  • ✅ 大模型的训练成本可能高达数千万美元
  • ✅ 常见问题:过拟合、欠拟合、梯度消失、训练不稳定
  • ✅ 微调比从头训练更高效,是主流做法