核心基础构件:神经元(节点)
这是神经网络最基本的计算单元,模仿了生物神经元。 一个典型的人工神经元包含三个部分:

- 输入(Inputs):接收来自前一层或多个来源的数据 (x_1, x_2, ..., x_n),每个输入都附带一个权重(Weight) (w_1, w_2, ..., w_n),代表该输入的重要性。
- 加权求和与偏置(Summation + Bias):
- 将所有输入乘以各自的权重并求和:(z = \sum_{i=1}^{n} w_i x_i)
- 再加上一个偏置(Bias) (b),偏置像一个调节阈值,允许神经元在输入总和为零时也能被激活。(z = (\sum_{i=1}^{n} w_i x_i) + b)
- 激活函数(Activation Function):对加权和的结果 (z) 应用一个非线性函数 (f),得到该神经元的最终输出 (a = f(z))。
- 核心作用:引入非线性,如果没有激活函数,无论多少层神经网络都等价于一个单层线性模型,无法学习复杂模式。
- 常见激活函数:
- Sigmoid:将输出压缩到(0,1),常用于二分类输出层。
- Tanh:将输出压缩到(-1,1),均值中心化。
- ReLU(整流线性单元):(f(z) = max(0, z)),目前最常用,能有效缓解梯度消失问题,计算简单。
- Softmax:将多个神经元的输出转换为概率分布,总和为1,用于多分类输出层。
网络整体层级结构
神经元按照特定的方式组织起来,形成层(Layers),层与层之间相互连接,构成网络。
一个典型的前馈神经网络(最基本的类型)包含三类层:
-
输入层(Input Layer)
- 网络的入口,负责接收原始数据(如图像像素、文本向量、传感器读数)。
- 该层的神经元数量等于输入数据的特征维度(一张28x28的灰度图像会展开为784个神经元)。
- 输入层通常没有激活函数和权重,仅做数据分发。
-
隐藏层(Hidden Layers)
- 位于输入层和输出层之间,是网络进行特征抽象和转换的核心部分。
- 一个网络可以有一个或多个隐藏层,这决定了网络的“深度”(“深度学习”一词即源于此)。
- 每一层隐藏层都包含多个神经元,每个神经元都与前一层的所有神经元相连(全连接)。
- 隐藏层中的神经元会执行“加权求和 -> 加偏置 -> 激活函数”的完整计算。
- 深层网络的能力:浅层隐藏层学习低级特征(如边缘、线条),深层隐藏层逐渐组合成高级、抽象的特征(如眼睛、轮子、概念)。
-
输出层(Output Layer)
- 网络的出口,产生最终的结果。
- 其神经元数量和激活函数取决于任务类型:
- 二分类:1个神经元 + Sigmoid激活(输出一个0到1的概率)。
- 多分类:N个神经元(N等于类别数)+ Softmax激活(输出每个类别的概率)。
- 回归(预测连续值):1个或N个神经元 + 通常无激活或线性激活。
信息流动与学习:前向传播与反向传播
-
前向传播(Forward Propagation)
- 数据从输入层开始,经过各隐藏层逐层计算,最终到达输出层,并产生预测结果的过程。
- 这就是网络“做预测”或“做推断”时的流程。
-
反向传播(Backpropagation) + 梯度下降(Gradient Descent)
- 这是网络学习(训练) 的核心机制。
- 流程:
- 前向传播得到预测输出。
- 通过损失函数(如均方误差、交叉熵)计算预测输出与真实标签之间的误差。
- 反向传播:将误差从输出层向输入层逐层反向传递,利用链式法则计算出网络中每一个权重和偏置对总误差的贡献(梯度)。
- 优化器(如梯度下降):根据计算出的梯度,沿着减少误差的方向,微调(更新)所有权重和偏置。
- 这个过程在大量数据上循环迭代,直到网络性能达到满意水平。
常见的高级神经网络结构
除了标准的前馈全连接网络(FCN或DNN),针对不同任务,发展出了许多特殊的结构:
-
卷积神经网络(CNN)
- 专长:计算机视觉(图像、视频)。
- 结构特点:
- 卷积层:使用“滤波器”在输入数据上滑动,局部连接并权重共享,高效提取空间特征(如纹理、形状)。
- 池化层:对特征图进行下采样,减少计算量,增强模型鲁棒性。
- 最后通常会接上全连接层进行分类。
-
循环神经网络(RNN)
- 专长:序列数据(文本、语音、时间序列)。
- 结构特点:
- 神经元之间具有循环连接,使得网络具有“记忆”,能够处理前后依赖的信息。
- 常见变体:LSTM(长短期记忆网络) 和 GRU(门控循环单元),专门设计来解决长序列依赖问题。
-
Transformer
- 专长:自然语言处理,现已广泛应用于各种序列和多模态任务。
- 结构特点:
- 完全基于自注意力机制,能并行处理序列中的所有元素,并计算它们之间的关联强度。
- 摒弃了RNN的循环结构,训练效率极高,在长距离依赖建模上表现卓越。
- GPT、BERT等大语言模型的核心架构。
-
生成对抗网络(GAN)
- 专长:生成数据(如图像、音乐)。
- 结构特点:由两个网络“对抗”训练:
- 生成器:学习从随机噪声生成逼真的假数据。
- 判别器:学习区分真实数据和生成器产生的假数据。
- 两者相互竞争,共同进步。
人工神经网络的结构可以概括为一个 “由简单非线性单元(神经元)通过大量连接组装成的分层次、可学习的计算图”。
- 微观:神经元(权重、偏置、激活函数)是基石。
- 宏观:分层组织(输入、隐藏、输出层)构成主体。
- 动态:前向传播进行预测,反向传播与梯度下降驱动学习。
- 演化:针对不同领域(CNN、RNN、Transformer等)发展出高度特化的拓扑结构,以高效解决特定问题。
理解这些基本组件和原理,是进入深度学习领域的坚实基础。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。