第 9 篇 · 神经网络基础

神经元:AI的最小单位

一个会做决定的小东西

你的大脑里有大约860亿个神经元。这个数字大到难以想象——如果把这些神经元排成一排,可以绕地球四圈!

但神奇的是,每个神经元本身都很简单。它只做一件事:接收信号,然后决定要不要把信号传递出去。

AI的神经元也是这样。今天,我们来看看这个最简单的计算单元是如何工作的。

1
生物神经元长什么样?

在了解人工神经元之前,先看看我们大脑里的神经元是什么样的。

生物神经元结构
细胞体树突(接收信号)轴突(传递信号)

工作原理:树突接收来自其他神经元的信号 → 细胞体处理 → 如果信号足够强,就通过轴突传递出去

生物神经元的这种工作机制非常精妙。让我们更深入地了解它的各个部分:

生物神经元各部件详解
🌿

树突

像树枝一样分叉,负责接收来自其他神经元的化学信号。一个神经元可以有数千个树突分支,同时接收多个信号。

🔵

细胞体

神经元的"计算中心"。整合所有树突接收到的信号,如果总和超过阈值,就会产生动作电位(电信号)。

📡

轴突

一根长长的纤维,负责把电信号传递给其他神经元。轴突末端分叉成多个突触,可以连接上千个其他神经元。

生物神经元的信号传递是"全或无"的:要么完全激活(产生动作电位),要么完全不激活。这种二进制特性启发了早期的人工神经元设计。

有趣的是,生物神经元之间的连接强度是可以改变的——这正是学习的生理基础。当你学习新知识时,你的大脑实际上在调整神经元之间连接的强度。AI的"权重"概念就是从这里来的。

神经元之间的连接:突触
神经元A突触间隙神经元B神经递质

信号从神经元A的轴突释放神经递质,穿过突触间隙,被神经元B的树突接收

继续看下去

2
人工神经元是怎么工作的?

AI的神经元(也叫「感知机」)模仿了生物神经元的基本逻辑,但用数学来实现。

人工神经元的工作流程
输入 1x₁
输入 2x₂
输入 3x₃
第1步:加权求和
总和 = x₁ × w₁ + x₂ × w₂ + x₃ × w₃ + b

w = 权重(重要程度),b = 偏置(阈值调整)

第2步:激活函数
输出 = 激活函数(总和)

决定是否「点火」,把信号传出去

输出0 或 1
💡
类比理解:想象你是一个门卫。每个输入就是一个来敲门的访客,权重是访客的重要性,偏置是你的心情(阈值)。如果重要访客够多,你就开门(输出1);否则不开(输出0)。

让我们用一个更详细的例子来理解这个过程。假设你在决定是否要买一只股票:

投资决策的神经元模型

输入1

公司盈利

x₁ = 1

输入2

行业前景

x₂ = 0

输入3

市场情绪

x₃ = 1

加权求和计算

公司盈利 (×0.5)1 × 0.5 = 0.5
行业前景 (×0.3)0 × 0.3 = 0
市场情绪 (×0.2)1 × 0.2 = 0.2
偏置-0.4
总和0.5 + 0 + 0.2 - 0.4 = 0.3

激活函数判断

总和 0.3 > 阈值 0?

✅ 决定:买入!

在这个例子中,即使行业前景不好(x₂=0),但公司盈利良好且市场情绪积极,加权求和后总和为0.3,超过了阈值,所以神经元「激活」,输出买入信号。

类比🧮

加权投票系统

想象一个公司董事会在做决策:
  • CEO(权重0.5):同意 → 贡献0.5票
  • CTO(权重0.3):反对 → 贡献0票
  • CFO(权重0.2):同意 → 贡献0.2票

总和 = 0.7,减去保守倾向(偏置-0.4)= 0.3 > 0,决议通过!

这就是神经元在做的事情——加权投票,然后做决定。

3
权重和偏置是什么意思?

权重⚖️

Weight - 重要程度

权重决定了每个输入的重要性。权重越大,这个输入对结果的影响就越大。就像投票时,不同人的票数权重可能不一样。
偏置🔧

Bias - 阈值调整

偏置决定了神经元有多容易被激活。偏置越大,神经元越容易「点火」;偏置越小,就需要更强的输入信号才能激活。
一个简单的例子:判断要不要出门

输入:天气好吗?(是=1,否=0)

天气:x₁ = 1×w₁ = 0.7= 0.7
有伞吗:x₂ = 0×w₂ = 0.3= 0
偏置:b = -0.5

总和 = 0.7 + 0 + (-0.5) = 0.2

如果总和 > 0,输出「出门」;否则「不出门」

✅ 决定:出门!

权重和偏置的选择直接决定了神经元的行为。让我们看看不同参数设置会产生什么不同的决策逻辑:

不同参数配置的比较

配置A:保守型

w₁(天气) = 0.6

w₂(有伞) = 0.4

b(偏置) = -0.8

需要更强的正面信号才会出门。即使天气好但没伞(0.6 - 0.8 = -0.2),也不会出门。

配置B:冒险型

w₁(天气) = 0.5

w₂(有伞) = 0.5

b(偏置) = -0.2

很容易出门。只要有伞(0.5 - 0.2 = 0.3),即使天气不好也会出门。

🎯
训练神经网络的过程,本质上就是找到最优的权重和偏置组合。通过大量数据的反复试错,网络逐渐学会什么样的参数配置能产生正确的输出。

4
为什么单个神经元很「笨」?

单个神经元的能力非常有限。它只能做一件很简单的事:线性分类。

单个神经元能做什么?
✅ 能做
  • • 判断邮件是不是垃圾邮件
  • • 根据成绩判断及格/不及格
  • • 简单的二分类问题

本质:画一条直线,把数据分成两类

❌ 不能做
  • • 识别图片里的猫
  • • 理解一句话的意思
  • • 复杂的模式识别

原因:现实世界的问题很少是线性可分的

让我们更直观地理解为什么单个神经元只能做线性分类。想象一下,你在平面上有一些数据点:

线性分类 vs 非线性分类

✅ 线性可分

可以用一条直线把两类数据分开。单个神经元就能解决。

❌ 非线性可分

无论怎么画直线都无法分开。需要多个神经元组成的网络。

现实世界中的问题大多是右边的类型——非线性可分的。比如识别一张图片里有没有猫:猫可能在图片的任何位置,可能有各种姿势、颜色、大小。这不是画一条直线就能解决的问题。

感知机的历史意义
📜

1957年:感知机的诞生

心理学家Frank Rosenblatt发明了感知机(Perceptron),这是第一个人工神经网络。当时引起了巨大轰动,媒体甚至预测它很快就能像人类一样思考。

但1969年,Marvin Minsky和Seymour Papert出版了《感知机》一书,证明了单个感知机无法解决异或问题(XOR),这导致神经网络研究陷入了长达20年的"寒冬"。

直到1986年,反向传播算法被重新发现,人们才意识到多层感知机可以解决非线性问题,神经网络才重新兴起。

🧠 关键洞察

单个神经元就像单个脑细胞——它什么都做不了。但860亿个神经元连接在一起,就能产生意识、创造艺术、发明科学。

AI也是一样。单个感知机很笨,但把成千上万个感知机连起来,就能做出惊人的事情。这就是下一篇要讲的——神经网络。

5
激活函数:决定要不要"点火"

激活函数是神经元的关键组件,它决定了神经元是否要把信号传递出去。没有激活函数,无论多少层神经元叠加,都只是在做一个线性变换——相当于一个复杂的线性模型。

常见的激活函数

阶跃函数

001

最早的激活函数。输入>0输出1,否则输出0。缺点是太"硬",不利于训练。

Sigmoid

0.5

输出范围(0,1),像S形曲线。适合输出概率,但深层网络中容易出现梯度消失。

ReLU

0

正数原样输出,负数输出0。计算简单,是深度学习中最常用的激活函数。

🔥
激活函数给神经网络引入了非线性。如果没有激活函数,无论多少层神经元,都等价于一个线性变换,无法解决复杂问题。激活函数让神经网络能够逼近任意复杂的函数。

为什么叫"激活"函数?因为它的输出可以看作是神经元被"激活"的程度。输出值越大,表示神经元越"兴奋",传递的信号越强。

激活函数的作用示意

输入总和

-0.5

ReLU

max(0, -0.5)

输出

0

❌ 未激活

输入总和

0.8

ReLU

max(0, 0.8)

输出

0.8

✅ 激活

6
常见误区

❌ 误区1:神经元在「思考」

神经元只是在进行简单的数学运算:乘法、加法、比较大小。它没有意识,没有理解,只是在执行固定的计算流程。

❌ 误区2:权重和偏置是「学」出来的

在训练之前,权重和偏置是随机设置的。它们本身不包含任何知识。知识是通过训练过程逐渐调整这些数字而「涌现」出来的。

❌ 误区3:神经元越多越好

虽然更多的神经元可以增加模型的能力,但也会增加计算成本,而且容易导致过拟合。关键是架构设计,而不是单纯堆数量。

除了这些误区,还有一些常见的混淆概念需要澄清:

概念澄清

✅ 正确理解

  • • 神经元是一个数学函数,不是生物细胞
  • • 权重表示连接强度,不是重要性排序
  • • 激活函数引入非线性,让网络有表达能力
  • • 训练是参数优化过程,不是"学习"知识

❌ 常见误解

  • • 神经元像人脑一样"思考"和"理解"
  • • 权重越大表示这个输入越"重要"
  • • 激活函数是可选的,只是让输出更好看
  • • 训练后神经元"记住"了训练数据
总结

7
感知机的实际应用

虽然单个感知机的能力有限,但在某些简单场景中,它仍然非常有用:

感知机的应用场景
📧

垃圾邮件过滤

输入:邮件中出现"免费"、"点击这里"、"限时"等关键词的频率。输出:是否是垃圾邮件。

💳

信用卡欺诈检测

输入:交易金额、时间、地点是否与用户习惯匹配。输出:是否是欺诈交易。

🏥

疾病风险预测

输入:年龄、血压、血糖等指标。输出:是否有患病风险。

📊

客户流失预测

输入:登录频率、消费金额、投诉次数。输出:客户是否会流失。

这些应用都有一个共同特点:它们是二分类问题,而且特征和结果之间大致呈线性关系。对于这类问题,单个感知机既简单又高效。

案例🎓

学生成绩预测

假设你想预测一个学生能否通过考试,基于两个因素:平时作业完成率和出勤率。
输出 = 0.6 × 作业完成率 + 0.4 × 出勤率 - 0.5

如果输出 > 0,预测通过;否则预测不通过。这是一个典型的感知机应用。

总结

🎓 一句话总结

  • 生物神经元 = 接收信号 → 处理 → 决定是否传递
  • 人工神经元 = 加权求和 → 激活函数 → 输出
  • 权重 决定输入的重要性,偏置 决定激活的难易程度
  • 激活函数引入非线性,让神经网络能表达复杂函数
  • 单个神经元很笨,只能做线性分类;多个神经元连接才能产生复杂能力

下篇预告

第10篇:神经网络——一群笨神经元组成的聪明系统

单个神经元很笨。但把它们连起来,让它们互相影响,就能做出聪明的事。下一篇,我们来看看神经网络是如何工作的。

✏️ 手绘图解 · AI Catch 出品

第 9 篇 / 共 84 篇