其核心思想是,通过注意力机制,让模型在处理任何一个元素时,都能直接看到并权衡输入序列中所有其他元素的重要性,从而实现高效的并行计算和强大的长距离依赖建模

星博讯 AI基础认知 1

下面我将从核心理念、整体架构、关键组件优势与影响四个方面详细解释其原理。

其核心思想是,通过注意力机制,让模型在处理任何一个元素时,都能直接看到并权衡输入序列中所有其他元素的重要性,从而实现高效的并行计算和强大的长距离依赖建模-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

核心理念:自注意力机制

这是 Transformer 的灵魂,想象一下你读一句话:

The animal didn’t cross the street because it was too tired.

这里的 “it” 指的是 “animal” 还是 “street”?人类能根据上下文(特别是 “tired”)轻松判断出是 “animal”,自注意力机制的目的就是让模型学会这种关联。

自注意力的计算过程(Scaled Dot-Product Attention):

  1. 表示输入:将每个输入词(“it”)转换成一个向量(称为嵌入向量)。
  2. 生成三个关键向量:对每个词的嵌入向量,通过三个不同的线性变换,生成三个新向量:
    • 查询向量:代表这个词在“主动询问”什么信息。
    • 键向量:代表这个词可以用来“被匹配”的特征。
    • 值向量:代表这个词真正携带的“信息内容”。
  3. 计算注意力分数
    • 对于目标词(如 “it”),用它的 Q 去与序列中所有词(包括它自己)的 K 做点积(Q·K^T),点积越大,表示两个词的相关性越高。
    • 将点积结果除以 √(dk)dk 是 K 向量的维度),进行缩放,以防止点积值过大导致梯度消失。
    • 应用 Softmax 函数,将这些分数转化为概率分布(和为1),这个分布就代表了在计算当前词时,应该“注意”序列中其他词的权重。
  4. 加权求和:用上一步得到的权重(注意力概率),对所有词V 进行加权求和,结果就是当前词(“it”)新的、融合了全局上下文信息的表示。

公式表达: Attention(Q, K, V) = softmax( (Q·K^T) / √(dk) ) · V

整体架构:编码器-解码器结构

Transformer 也采用经典的编码器-解码器结构,但内部完全由注意力模块和前馈网络构成。

输入序列 -> [编码器栈] -> 中间表示 -> [解码器栈] -> 输出序列

编码器

  • 组成:由 N 个(原论文 N=6)完全相同的层堆叠而成。
  • 每层包含两个子层
    • 多头自注意力层:让输入的每个词都能关注到输入序列的所有词。
    • 前馈神经网络层:一个全连接网络,独立作用于每个位置的词向量。
  • 残差连接与层归一化:每个子层都被一个残差连接包围,后接层归一化,即:输出 = LayerNorm(子层输入 + 子层输出),这使得深层网络训练更稳定。

解码器

  • 组成:同样由 N 个相同的层堆叠。
  • 每层包含三个子层
    • 掩码多头自注意力层:与编码器自注意力类似,但为了确保训练时解码器只能“看到”已经生成的词(防止信息泄露),会在注意力计算中用一个掩码矩阵,将未来位置的权重设为负无穷(经过 Softmax 后变为0)。
    • 编码器-解码器注意力层:这是连接编码器和解码器的关键,它的 Q 来自解码器上一层的输出,而 KV 来自编码器的最终输出,这样,解码器在生成每一个词时,都能聚焦于输入序列中最相关的部分。
    • 前馈神经网络层:与编码器相同。
  • 同样使用残差连接和层归一化

关键组件详解

多头注意力

单一的注意力机制可能只关注到一种模式的关系(如语法、指代)。多头注意力并行地运行多个自注意力机制(即多个“头”),每个头学习在不同子空间下的不同注意力模式,最后将所有头的输出拼接起来,再通过一个线性层整合。

  • 好处:增强了模型的表达能力,使其能同时关注来自不同位置、不同表示子空间的信息。

位置编码

自注意力机制本身没有位置概念,它对序列的处理是无序的,但语言中词序至关重要,为此,Transformer 引入了位置编码

  • 为输入序列的每个位置(第1个词,第2个词...)计算一个唯一的向量。
  • 这个向量与词嵌入向量相加,作为编码器/解码器的实际输入。
  • 常用正弦和余弦函数来生成位置编码,因为其可以扩展到任意长度且能表示相对位置关系。

前馈神经网络

这是一个简单的两层全连接网络,中间有一个 ReLU 激活函数,它对每个位置的向量进行独立变换。FFN(x) = max(0, xW1 + b1)W2 + b2

  • 作用:提供非线性变换,增加模型的表示能力。

最终输出层

解码器最后一层的输出,经过一个线性层(将维度映射到词表大小),再通过 Softmax 层,得到下一个词的概率分布。

训练与优势

  • 训练:使用教师强迫策略,即将正确的目标序列(右移一位)作为解码器的输入,来预测下一个词,优化目标是最大化正确序列的似然概率(最小化交叉熵损失)。
  • 并行化:这是相比 RNN 的最大优势,RNN 必须一步步顺序计算,而 Transformer 的自注意力可以一次性计算整个序列所有位置之间的关联,极大提高了训练效率。
  • 长距离依赖:自注意力机制一步就建立了任意两个位置的联系,无论距离多远,彻底解决了 RNN 的长期依赖问题。

影响与衍生模型

Transformer 的开创性工作催生了当今几乎所有最强大的语言模型:

  • 仅用编码器:如 BERT,擅长理解类任务(文本分类、问答、情感分析)。
  • 仅用解码器:如 GPT 系列,擅长生成类任务(文本生成、续写、对话)。
  • 编码器-解码器:如 T5, BART,擅长序列到序列的任务(翻译、。

Transformer 的核心原理是:利用自注意力机制,并行地、全局地建模序列中所有元素间的关系,通过多头注意力和位置编码等设计,实现对序列信息高效而强大的编码与解码。 它的出现,标志着 NLP 进入了“预训练-微调”的新时代,并成为当前大语言模型的通用架构基础。

标签: 自注意力 Transformer

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00