返回文章列表
基础概念第 5 课

模型就是AI的「大脑」

但它一开始是空白的

2026年3月27日10 分钟阅读

1
模型是什么?

模型是什么?

简单来说,就是一堆参数(数字)

模型的本质

模型 = 成千上万个数字

[0.23, -1.45, 0.89, 0.12, -0.67, ...]
[1.02, 0.34, -0.21, 0.78, -0.05, ...]
[...共几百万个数字...]

一开始,这些数字是随机的,毫无意义。但经过训练,它们就变成了一个能做事的「大脑」。

模型从随机到聪明
训练前

🎲🎲🎲

随机参数

什么都不会

乱猜一通

训练后

🧠🧠🧠

智能模型

学会任务

准确预测

核心类比:模型 = AI的大脑。但这个大脑一开始是空白的,需要通过学习(训练)来填充知识。

2
参数:模型的「记忆」

参数是模型的核心。你可以把参数理解为模型的「记忆」或「知识」。

参数数量 = 模型大小

• 小模型:几百万参数(如手机上的AI)

• 中等模型:几亿参数

• 大模型:几百亿到几千亿参数(如GPT-4)

模型参数规模对比
手机端小模型
10M - 100M 参数📱
服务器端中等模型
100M - 1B 参数💻
大型语言模型
10B - 100B 参数🏢
超大规模模型
100B - 1T+ 参数🌐

参数越多,模型能「记住」的东西就越多,能力通常也越强。但也需要更多的数据和算力来训练。

参数是可学习的

  • 🔧 训练前:参数是随机初始化的
  • 📊 训练中:通过数据不断调整参数
  • 💾 训练后:参数被固定下来,形成模型
  • 🚀 推理时:用这些参数来处理新数据

3
架构:模型的「结构」

除了参数,模型还有一个重要概念:架构

架构就是参数的组织方式——这些数字怎么排列、怎么连接、怎么计算。

常见的模型架构
神经网络

像大脑神经元一样连接

适合:图像识别、语音识别

Transformer

注意力机制,并行计算

适合:自然语言处理(GPT)

主流架构对比

🎨 CNN(卷积神经网络)

  • ✓ 擅长处理图像
  • ✓ 参数相对较少
  • ✓ 计算效率高

📝 RNN(循环神经网络)

  • ✓ 处理序列数据
  • ✓ 有记忆能力
  • ✗ 训练慢,容易遗忘

🤖 Transformer

  • ✓ 并行计算能力强
  • ✓ 长距离依赖好
  • ✓ 成为NLP主流

🌈 GAN(生成对抗网络)

  • ✓ 生成高质量图像
  • ✓ 训练不稳定
  • ✗ 难以评估

架构决定了模型的「形状」,参数填充了这个形状里的具体内容。

建筑类比:架构就像建筑图纸,参数就像砖块和水泥。好的架构设计是基础,但参数决定了建筑的最终质量。

4
训练:让模型变聪明

模型一开始什么都不知道。怎么让它变聪明?

训练——通过大量数据调整参数,让模型学会做任务。

训练的过程
步骤1输入数据(比如一张猫的图片)
步骤2模型做预测(猜这是猫还是狗)
步骤3对比正确答案(这是猫)
步骤4调整参数(让下次猜得更准)

重复这个过程几百万次,模型就学会了。

训练的关键要素

  • 📚 训练数据:模型学习的"教材"
  • 🎯 损失函数:衡量模型表现好坏的标准
  • 📈 优化算法:如何调整参数(如梯度下降)
  • 算力:GPU/TPU等硬件支持
  • ⏱️ 时间:训练可能需要几天甚至几个月

5
推理:让模型做任务

训练完成后,模型就可以用来做任务了。这个过程叫推理(Inference)。

训练 vs 推理
训练阶段

🎓 学习阶段

📊 用大量数据

⚙️ 调整参数

⏱️ 耗时很长

推理阶段

💼 工作阶段

🎯 处理新数据

🔒 参数固定

⚡ 快速响应

推理优化技巧

  • 🎚️ 量化:减少参数精度(32位→8位),降低内存占用
  • ✂️ 剪枝:删除不重要的参数,减小模型大小
  • 📦 模型压缩:让模型在手机等设备上运行
  • 🔄 批处理:一次处理多个输入,提高效率

6
模型的类型

根据任务类型,模型可以分为很多种:

常见AI模型类型
分类模型

判断输入属于哪一类

例:识别猫/狗/鸟

回归模型

预测连续数值

例:预测房价/温度

生成模型

创建新内容

例:GPT写文章

检测模型

找出目标位置

例:自动驾驶识别行人

7
总结

核心要点

  • ✅ 模型就是一堆参数(数字),是AI的「大脑」
  • ✅ 参数数量决定模型大小,越多通常能力越强
  • ✅ 架构是参数的组织方式,决定模型的结构
  • ✅ 训练就是调整参数,让模型从数据中学习
  • ✅ 推理是模型实际工作阶段,参数固定
  • ✅ 不同任务需要不同类型的模型