下面我将从基础构成单元到整体网络架构,再到高级结构类型,为你详细解析

星博讯 AI基础认知 1

核心基础构件:神经元(节点)

这是神经网络最基本的计算单元,模仿了生物神经元。 一个典型的人工神经元包含三个部分:

下面我将从基础构成单元到整体网络架构,再到高级结构类型,为你详细解析-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

  1. 输入(Inputs):接收来自前一层或多个来源的数据 (x_1, x_2, ..., x_n),每个输入都附带一个权重(Weight) (w_1, w_2, ..., w_n),代表该输入的重要性。
  2. 加权求和与偏置(Summation + Bias)
    • 将所有输入乘以各自的权重并求和:(z = \sum_{i=1}^{n} w_i x_i)
    • 再加上一个偏置(Bias) (b),偏置像一个调节阈值,允许神经元在输入总和为零时也能被激活。(z = (\sum_{i=1}^{n} w_i x_i) + b)
  3. 激活函数(Activation Function):对加权和的结果 (z) 应用一个非线性函数 (f),得到该神经元的最终输出 (a = f(z))。
    • 核心作用:引入非线性,如果没有激活函数,无论多少层神经网络都等价于一个单层线性模型,无法学习复杂模式。
    • 常见激活函数
      • Sigmoid:将输出压缩到(0,1),常用于二分类输出层。
      • Tanh:将输出压缩到(-1,1),均值中心化。
      • ReLU(整流线性单元):(f(z) = max(0, z)),目前最常用,能有效缓解梯度消失问题,计算简单。
      • Softmax:将多个神经元的输出转换为概率分布,总和为1,用于多分类输出层。

网络整体层级结构

神经元按照特定的方式组织起来,形成层(Layers),层与层之间相互连接,构成网络。

一个典型的前馈神经网络(最基本的类型)包含三类层:

  1. 输入层(Input Layer)

    • 网络的入口,负责接收原始数据(如图像像素、文本向量、传感器读数)。
    • 该层的神经元数量等于输入数据的特征维度(一张28x28的灰度图像会展开为784个神经元)。
    • 输入层通常没有激活函数和权重,仅做数据分发。
  2. 隐藏层(Hidden Layers)

    • 位于输入层和输出层之间,是网络进行特征抽象和转换的核心部分。
    • 一个网络可以有一个或多个隐藏层,这决定了网络的“深度”(“深度学习”一词即源于此)。
    • 每一层隐藏层都包含多个神经元,每个神经元都与前一层的所有神经元相连(全连接)。
    • 隐藏层中的神经元会执行“加权求和 -> 加偏置 -> 激活函数”的完整计算。
    • 深层网络的能力:浅层隐藏层学习低级特征(如边缘、线条),深层隐藏层逐渐组合成高级、抽象的特征(如眼睛、轮子、概念)。
  3. 输出层(Output Layer)

    • 网络的出口,产生最终的结果。
    • 神经元数量和激活函数取决于任务类型
      • 二分类:1个神经元 + Sigmoid激活(输出一个0到1的概率)。
      • 多分类:N个神经元(N等于类别数)+ Softmax激活(输出每个类别的概率)。
      • 回归(预测连续值):1个或N个神经元 + 通常无激活或线性激活。

信息流动与学习:前向传播与反向传播

  1. 前向传播(Forward Propagation)

    • 数据从输入层开始,经过各隐藏层逐层计算,最终到达输出层,并产生预测结果的过程。
    • 这就是网络“做预测”或“做推断”时的流程。
  2. 反向传播(Backpropagation) + 梯度下降(Gradient Descent)

    • 这是网络学习(训练) 的核心机制。
    • 流程
      • 前向传播得到预测输出。
      • 通过损失函数(如均方误差、交叉熵)计算预测输出与真实标签之间的误差。
      • 反向传播:将误差从输出层向输入层逐层反向传递,利用链式法则计算出网络中每一个权重和偏置对总误差的贡献(梯度)
      • 优化器(如梯度下降):根据计算出的梯度,沿着减少误差的方向,微调(更新)所有权重和偏置。
    • 这个过程在大量数据上循环迭代,直到网络性能达到满意水平。

常见的高级神经网络结构

除了标准的前馈全连接网络(FCN或DNN),针对不同任务,发展出了许多特殊的结构:

  1. 卷积神经网络(CNN)

    • 专长:计算机视觉(图像、视频)。
    • 结构特点
      • 卷积层:使用“滤波器”在输入数据上滑动,局部连接权重共享,高效提取空间特征(如纹理、形状)。
      • 池化层:对特征图进行下采样,减少计算量,增强模型鲁棒性。
      • 最后通常会接上全连接层进行分类。
  2. 循环神经网络(RNN)

    • 专长:序列数据(文本、语音、时间序列)。
    • 结构特点
      • 神经元之间具有循环连接,使得网络具有“记忆”,能够处理前后依赖的信息。
      • 常见变体:LSTM(长短期记忆网络)GRU(门控循环单元),专门设计来解决长序列依赖问题。
  3. Transformer

    • 专长:自然语言处理,现已广泛应用于各种序列和多模态任务。
    • 结构特点
      • 完全基于自注意力机制,能并行处理序列中的所有元素,并计算它们之间的关联强度。
      • 摒弃了RNN的循环结构,训练效率极高,在长距离依赖建模上表现卓越。
      • GPT、BERT等大语言模型的核心架构。
  4. 生成对抗网络(GAN)

    • 专长:生成数据(如图像、音乐)。
    • 结构特点:由两个网络“对抗”训练:
      • 生成器:学习从随机噪声生成逼真的假数据。
      • 判别器:学习区分真实数据和生成器产生的假数据。
      • 两者相互竞争,共同进步。

人工神经网络的结构可以概括为一个 “由简单非线性单元(神经元)通过大量连接组装成的分层次、可学习的计算图”

  • 微观:神经元(权重、偏置、激活函数)是基石。
  • 宏观:分层组织(输入、隐藏、输出层)构成主体。
  • 动态:前向传播进行预测,反向传播与梯度下降驱动学习。
  • 演化:针对不同领域(CNN、RNN、Transformer等)发展出高度特化的拓扑结构,以高效解决特定问题。

理解这些基本组件和原理,是进入深度学习领域的坚实基础。

标签: 网络架构 高级结构

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00