下面我将从基础构成单元到整体网络架构，再到高级结构类型，为你详细解析

星博讯 AI基础认知 2026-04-09 1

核心基础构件：神经元（节点）

这是神经网络最基本的计算单元,模仿了生物神经元。一个典型的人工神经元包含三个部分：

下面我将从基础构成单元到整体网络架构，再到高级结构类型，为你详细解析-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

输入（Inputs）：接收来自前一层或多个来源的数据 (x_1, x_2, ..., x_n)，每个输入都附带一个权重（Weight） (w_1, w_2, ..., w_n)，代表该输入的重要性。
加权求和与偏置（Summation + Bias）：
- 将所有输入乘以各自的权重并求和：(z = \sum_{i=1}^{n} w_i x_i)
- 再加上一个偏置（Bias） (b)，偏置像一个调节阈值，允许神经元在输入总和为零时也能被激活。(z = (\sum_{i=1}^{n} w_i x_i) + b)
激活函数（Activation Function）：对加权和的结果 (z) 应用一个非线性函数 (f)，得到该神经元的最终输出 (a = f(z))。
- 核心作用：引入非线性，如果没有激活函数，无论多少层神经网络都等价于一个单层线性模型，无法学习复杂模式。
- 常见激活函数：
  - Sigmoid：将输出压缩到(0,1)，常用于二分类输出层。
  - Tanh：将输出压缩到(-1,1)，均值中心化。
  - ReLU（整流线性单元）：(f(z) = max(0, z))，目前最常用，能有效缓解梯度消失问题，计算简单。
  - Softmax：将多个神经元的输出转换为概率分布，总和为1，用于多分类输出层。

神经元按照特定的方式组织起来,形成层（Layers），层与层之间相互连接，构成网络。

一个典型的前馈神经网络（最基本的类型）包含三类层：

输入层（Input Layer）
- 网络的入口,负责接收原始数据（如图像像素、文本向量、传感器读数）。
- 该层的神经元数量等于输入数据的特征维度（一张28x28的灰度图像会展开为784个神经元）。
- 输入层通常没有激活函数和权重，仅做数据分发。
隐藏层（Hidden Layers）
- 位于输入层和输出层之间,是网络进行特征抽象和转换的核心部分。
- 一个网络可以有一个或多个隐藏层,这决定了网络的“深度”（“深度学习”一词即源于此）。
- 每一层隐藏层都包含多个神经元,每个神经元都与前一层的所有神经元相连（全连接）。
- 隐藏层中的神经元会执行“加权求和 -> 加偏置 -> 激活函数”的完整计算。
- 深层网络的能力：浅层隐藏层学习低级特征（如边缘、线条），深层隐藏层逐渐组合成高级、抽象的特征（如眼睛、轮子、概念）。
输出层（Output Layer）
- 网络的出口,产生最终的结果。
- 其神经元数量和激活函数取决于任务类型：
  - 二分类：1个神经元 + Sigmoid激活（输出一个0到1的概率）。
  - 多分类：N个神经元（N等于类别数）+ Softmax激活（输出每个类别的概率）。
  - 回归（预测连续值）：1个或N个神经元 + 通常无激活或线性激活。

前向传播（Forward Propagation）
- 数据从输入层开始,经过各隐藏层逐层计算，最终到达输出层，并产生预测结果的过程。
- 这就是网络“做预测”或“做推断”时的流程。
反向传播（Backpropagation） + 梯度下降（Gradient Descent）
- 这是网络学习（训练） 的核心机制。
- 流程：
  - 前向传播得到预测输出。
  - 通过损失函数（如均方误差、交叉熵）计算预测输出与真实标签之间的误差。
  - 反向传播：将误差从输出层向输入层逐层反向传递，利用链式法则计算出网络中每一个权重和偏置对总误差的贡献（梯度）。
  - 优化器（如梯度下降）：根据计算出的梯度，沿着减少误差的方向，微调（更新）所有权重和偏置。
- 这个过程在大量数据上循环迭代,直到网络性能达到满意水平。

除了标准的前馈全连接网络（FCN或DNN），针对不同任务，发展出了许多特殊的结构：

卷积神经网络（CNN）
- 专长：计算机视觉（图像、视频）。
- 结构特点：
  - 卷积层：使用“滤波器”在输入数据上滑动，局部连接并权重共享，高效提取空间特征（如纹理、形状）。
  - 池化层：对特征图进行下采样，减少计算量，增强模型鲁棒性。
  - 最后通常会接上全连接层进行分类。
循环神经网络（RNN）
- 专长：序列数据（文本、语音、时间序列）。
- 结构特点：
  - 神经元之间具有循环连接，使得网络具有“记忆”，能够处理前后依赖的信息。
  - 常见变体：LSTM（长短期记忆网络） 和 GRU（门控循环单元），专门设计来解决长序列依赖问题。
Transformer
- 专长：自然语言处理，现已广泛应用于各种序列和多模态任务。
- 结构特点：
  - 完全基于自注意力机制，能并行处理序列中的所有元素，并计算它们之间的关联强度。
  - 摒弃了RNN的循环结构,训练效率极高，在长距离依赖建模上表现卓越。
  - GPT、BERT等大语言模型的核心架构。
生成对抗网络（GAN）
- 专长：生成数据（如图像、音乐）。
- 结构特点：由两个网络“对抗”训练：
  - 生成器：学习从随机噪声生成逼真的假数据。
  - 判别器：学习区分真实数据和生成器产生的假数据。
  - 两者相互竞争,共同进步。