神经元:AI的最小单位
一个会做决定的小东西
你的大脑里有大约860亿个神经元。这个数字大到难以想象——如果把这些神经元排成一排,可以绕地球四圈!
但神奇的是,每个神经元本身都很简单。它只做一件事:接收信号,然后决定要不要把信号传递出去。
AI的神经元也是这样。今天,我们来看看这个最简单的计算单元是如何工作的。
1生物神经元长什么样?
在了解人工神经元之前,先看看我们大脑里的神经元是什么样的。
工作原理:树突接收来自其他神经元的信号 → 细胞体处理 → 如果信号足够强,就通过轴突传递出去
生物神经元的这种工作机制非常精妙。让我们更深入地了解它的各个部分:
树突
像树枝一样分叉,负责接收来自其他神经元的化学信号。一个神经元可以有数千个树突分支,同时接收多个信号。
细胞体
神经元的"计算中心"。整合所有树突接收到的信号,如果总和超过阈值,就会产生动作电位(电信号)。
轴突
一根长长的纤维,负责把电信号传递给其他神经元。轴突末端分叉成多个突触,可以连接上千个其他神经元。
有趣的是,生物神经元之间的连接强度是可以改变的——这正是学习的生理基础。当你学习新知识时,你的大脑实际上在调整神经元之间连接的强度。AI的"权重"概念就是从这里来的。
信号从神经元A的轴突释放神经递质,穿过突触间隙,被神经元B的树突接收
2人工神经元是怎么工作的?
AI的神经元(也叫「感知机」)模仿了生物神经元的基本逻辑,但用数学来实现。
w = 权重(重要程度),b = 偏置(阈值调整)
决定是否「点火」,把信号传出去
让我们用一个更详细的例子来理解这个过程。假设你在决定是否要买一只股票:
输入1
公司盈利
x₁ = 1
输入2
行业前景
x₂ = 0
输入3
市场情绪
x₃ = 1
加权求和计算
激活函数判断
总和 0.3 > 阈值 0?
✅ 决定:买入!
在这个例子中,即使行业前景不好(x₂=0),但公司盈利良好且市场情绪积极,加权求和后总和为0.3,超过了阈值,所以神经元「激活」,输出买入信号。
加权投票系统
- • CEO(权重0.5):同意 → 贡献0.5票
- • CTO(权重0.3):反对 → 贡献0票
- • CFO(权重0.2):同意 → 贡献0.2票
总和 = 0.7,减去保守倾向(偏置-0.4)= 0.3 > 0,决议通过!
这就是神经元在做的事情——加权投票,然后做决定。
3权重和偏置是什么意思?
Weight - 重要程度
Bias - 阈值调整
输入:天气好吗?(是=1,否=0)
总和 = 0.7 + 0 + (-0.5) = 0.2
如果总和 > 0,输出「出门」;否则「不出门」
✅ 决定:出门!
权重和偏置的选择直接决定了神经元的行为。让我们看看不同参数设置会产生什么不同的决策逻辑:
配置A:保守型
w₁(天气) = 0.6
w₂(有伞) = 0.4
b(偏置) = -0.8
需要更强的正面信号才会出门。即使天气好但没伞(0.6 - 0.8 = -0.2),也不会出门。
配置B:冒险型
w₁(天气) = 0.5
w₂(有伞) = 0.5
b(偏置) = -0.2
很容易出门。只要有伞(0.5 - 0.2 = 0.3),即使天气不好也会出门。
4为什么单个神经元很「笨」?
单个神经元的能力非常有限。它只能做一件很简单的事:线性分类。
- • 判断邮件是不是垃圾邮件
- • 根据成绩判断及格/不及格
- • 简单的二分类问题
本质:画一条直线,把数据分成两类
- • 识别图片里的猫
- • 理解一句话的意思
- • 复杂的模式识别
原因:现实世界的问题很少是线性可分的
让我们更直观地理解为什么单个神经元只能做线性分类。想象一下,你在平面上有一些数据点:
✅ 线性可分
可以用一条直线把两类数据分开。单个神经元就能解决。
❌ 非线性可分
无论怎么画直线都无法分开。需要多个神经元组成的网络。
现实世界中的问题大多是右边的类型——非线性可分的。比如识别一张图片里有没有猫:猫可能在图片的任何位置,可能有各种姿势、颜色、大小。这不是画一条直线就能解决的问题。
1957年:感知机的诞生
心理学家Frank Rosenblatt发明了感知机(Perceptron),这是第一个人工神经网络。当时引起了巨大轰动,媒体甚至预测它很快就能像人类一样思考。
但1969年,Marvin Minsky和Seymour Papert出版了《感知机》一书,证明了单个感知机无法解决异或问题(XOR),这导致神经网络研究陷入了长达20年的"寒冬"。
直到1986年,反向传播算法被重新发现,人们才意识到多层感知机可以解决非线性问题,神经网络才重新兴起。
🧠 关键洞察
单个神经元就像单个脑细胞——它什么都做不了。但860亿个神经元连接在一起,就能产生意识、创造艺术、发明科学。
AI也是一样。单个感知机很笨,但把成千上万个感知机连起来,就能做出惊人的事情。这就是下一篇要讲的——神经网络。
5激活函数:决定要不要"点火"
激活函数是神经元的关键组件,它决定了神经元是否要把信号传递出去。没有激活函数,无论多少层神经元叠加,都只是在做一个线性变换——相当于一个复杂的线性模型。
阶跃函数
最早的激活函数。输入>0输出1,否则输出0。缺点是太"硬",不利于训练。
Sigmoid
输出范围(0,1),像S形曲线。适合输出概率,但深层网络中容易出现梯度消失。
ReLU
正数原样输出,负数输出0。计算简单,是深度学习中最常用的激活函数。
为什么叫"激活"函数?因为它的输出可以看作是神经元被"激活"的程度。输出值越大,表示神经元越"兴奋",传递的信号越强。
输入总和
-0.5
ReLU
max(0, -0.5)
输出
0
❌ 未激活
输入总和
0.8
ReLU
max(0, 0.8)
输出
0.8
✅ 激活
6常见误区
❌ 误区1:神经元在「思考」
神经元只是在进行简单的数学运算:乘法、加法、比较大小。它没有意识,没有理解,只是在执行固定的计算流程。
❌ 误区2:权重和偏置是「学」出来的
在训练之前,权重和偏置是随机设置的。它们本身不包含任何知识。知识是通过训练过程逐渐调整这些数字而「涌现」出来的。
❌ 误区3:神经元越多越好
虽然更多的神经元可以增加模型的能力,但也会增加计算成本,而且容易导致过拟合。关键是架构设计,而不是单纯堆数量。
除了这些误区,还有一些常见的混淆概念需要澄清:
✅ 正确理解
- • 神经元是一个数学函数,不是生物细胞
- • 权重表示连接强度,不是重要性排序
- • 激活函数引入非线性,让网络有表达能力
- • 训练是参数优化过程,不是"学习"知识
❌ 常见误解
- • 神经元像人脑一样"思考"和"理解"
- • 权重越大表示这个输入越"重要"
- • 激活函数是可选的,只是让输出更好看
- • 训练后神经元"记住"了训练数据
7感知机的实际应用
虽然单个感知机的能力有限,但在某些简单场景中,它仍然非常有用:
垃圾邮件过滤
输入:邮件中出现"免费"、"点击这里"、"限时"等关键词的频率。输出:是否是垃圾邮件。
信用卡欺诈检测
输入:交易金额、时间、地点是否与用户习惯匹配。输出:是否是欺诈交易。
疾病风险预测
输入:年龄、血压、血糖等指标。输出:是否有患病风险。
客户流失预测
输入:登录频率、消费金额、投诉次数。输出:客户是否会流失。
这些应用都有一个共同特点:它们是二分类问题,而且特征和结果之间大致呈线性关系。对于这类问题,单个感知机既简单又高效。
学生成绩预测
如果输出 > 0,预测通过;否则预测不通过。这是一个典型的感知机应用。
🎓 一句话总结
- ①生物神经元 = 接收信号 → 处理 → 决定是否传递
- ②人工神经元 = 加权求和 → 激活函数 → 输出
- ③权重 决定输入的重要性,偏置 决定激活的难易程度
- ④激活函数引入非线性,让神经网络能表达复杂函数
- ⑤单个神经元很笨,只能做线性分类;多个神经元连接才能产生复杂能力
→下篇预告
第10篇:神经网络——一群笨神经元组成的聪明系统
单个神经元很笨。但把它们连起来,让它们互相影响,就能做出聪明的事。下一篇,我们来看看神经网络是如何工作的。
✏️ 手绘图解 · AI Catch 出品
第 9 篇 / 共 84 篇