大模型（尤其是大语言模型，LLM）的基础结构几乎都建立在 Transformer 架构之上。可以说，理解了Transformer，就掌握了大模型的骨架

星博讯 AI基础认知 2026-04-09 41

大模型（尤其是大语言模型，LLM）的基础结构几乎都建立在 Transformer 架构之上。可以说，理解了Transformer，就掌握了大模型的骨架-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

核心架构：Transformer

Transformer 由谷歌在2017年《Attention Is All You Need》论文中提出，它彻底摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），完全依赖自注意力机制 来处理序列数据,实现了高度的并行化训练。

一个标准的Transformer模型主要由编码器 和解码器 堆叠而成，但在大模型的发展中,出现了两种主要变体：

编码器-解码器架构：原始Transformer结构，编码器理解输入，解码器生成输出。
- 代表模型：T5、BART。
仅解码器架构：为了生成任务而简化，模型只使用解码器堆叠，每一层都能看到之前的所有 Tokens（通过掩码实现）。
- 代表模型：GPT系列、Bloom、LLaMA,这是当前大多数生成式大语言模型的主流选择。
仅编码器架构：主要用于理解任务（如文本分类、语义理解）。
- 代表模型：BERT 系列，它通常不是“生成式”大模型,但在理解层面非常强大。

核心组件详解（以主流的仅解码器架构为例）

一个典型的GPT-like模型可以看作是由 N个相同的Transformer解码器层 堆叠而成,每一层都包含以下几个核心模块：

输入嵌入层
- 功能：将输入的文本 tokens（词元）转换为稠密的向量表示。
- 组成：
  - Token Embedding：将每个 token 映射为一个向量。
  - 位置嵌入：由于Transformer没有内置的顺序概念，需要额外添加位置信息（可以是固定的，也可以是可学习的）,让模型知道单词的顺序。
核心层：多头自注意力机制
- 这是Transformer的“灵魂”。
- 自注意力：允许序列中的任何一个位置“关注”到序列中所有其他位置的信息，并计算出一个加权和的表示,它能动态地捕捉远距离的依赖关系。
- 多头：将注意力机制并行执行多次（例如32个“头”），每个头学习在不同子空间（语义、语法等）上的关注模式，最后将结果合并,极大地增强了模型的表征能力。
前馈神经网络
- 一个简单的全连接网络，通常包含两个线性变换和一个激活函数（如GeLU、Swish）。
- 它为每个位置的表示提供一次非线性变换和升维/降维,增加模型的复杂度。
- 模式：注意力输出 -> 线性层（升维）-> 激活函数 -> 线性层（降维）
层归一化与残差连接
- 残差连接：将子层（如注意力层、前馈层）的输入直接加到其输出上，这是为了缓解深度网络中的梯度消失问题，使模型能够堆叠得很深（如百层以上）。
- 层归一化：对每个样本的特征维度进行归一化，稳定训练过程，通常放在残差连接之后（如GPT）或之前（如LLaMA）。
输出层
- 最后一层的输出经过一个线性层（词汇表大小 × 隐藏层维度）,将隐藏状态映射到整个词汇表上。
- 再通过一个Softmax函数，转换为每个词的概率分布,用于预测下一个词。

工作流程（以生成文本为例）

分词：将输入文本（如“今天天气很好”）切分成模型能理解的 tokens（[“今”， “天”， “天气”， “很”， “好”]）。
嵌入：将 tokens 转换为向量,并加上位置信息。
前向传播：向量依次通过堆叠的N个 Transformer 层，在每一层，信息通过自注意力进行全局交互，再通过前馈网络进行转换，并经由残差连接和层归一化稳定传递。
生成：从最终的输出概率分布中，根据某种策略（如贪心、采样、Top-p采样）选取下一个 token。
循环：将新生成的 token 加入输入序列，重复步骤2-4，直到生成结束标记或达到长度限制，这个过程称为自回归生成。