以下是大模型基础结构的核心组成部分,从宏观到微观进行分解:

核心架构:Transformer
Transformer 由谷歌在2017年《Attention Is All You Need》论文中提出,它彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全依赖自注意力机制 来处理序列数据,实现了高度的并行化训练。
一个标准的Transformer模型主要由编码器 和解码器 堆叠而成,但在大模型的发展中,出现了两种主要变体:
- 编码器-解码器架构:原始Transformer结构,编码器理解输入,解码器生成输出。
- 代表模型:T5、BART。
- 仅解码器架构:为了生成任务而简化,模型只使用解码器堆叠,每一层都能看到之前的所有 tokens(通过掩码实现)。
- 代表模型:GPT系列、Bloom、LLaMA,这是当前大多数生成式大语言模型的主流选择。
- 仅编码器架构:主要用于理解任务(如文本分类、语义理解)。
- 代表模型:BERT 系列,它通常不是“生成式”大模型,但在理解层面非常强大。
核心组件详解(以主流的仅解码器架构为例)
一个典型的GPT-like模型可以看作是由 N个相同的Transformer解码器层 堆叠而成,每一层都包含以下几个核心模块:
-
输入嵌入层
- 功能:将输入的文本 tokens(词元)转换为稠密的向量表示。
- 组成:
- Token Embedding:将每个 token 映射为一个向量。
- 位置嵌入:由于Transformer没有内置的顺序概念,需要额外添加位置信息(可以是固定的,也可以是可学习的),让模型知道单词的顺序。
-
核心层:多头自注意力机制
- 这是Transformer的“灵魂”。
- 自注意力:允许序列中的任何一个位置“关注”到序列中所有其他位置的信息,并计算出一个加权和的表示,它能动态地捕捉远距离的依赖关系。
- 多头:将注意力机制并行执行多次(例如32个“头”),每个头学习在不同子空间(语义、语法等)上的关注模式,最后将结果合并,极大地增强了模型的表征能力。
-
前馈神经网络
- 一个简单的全连接网络,通常包含两个线性变换和一个激活函数(如GeLU、Swish)。
- 它为每个位置的表示提供一次非线性变换和升维/降维,增加模型的复杂度。
- 模式:
注意力输出 -> 线性层(升维)-> 激活函数 -> 线性层(降维)
-
层归一化与残差连接
- 残差连接:将子层(如注意力层、前馈层)的输入直接加到其输出上,这是为了缓解深度网络中的梯度消失问题,使模型能够堆叠得很深(如百层以上)。
- 层归一化:对每个样本的特征维度进行归一化,稳定训练过程,通常放在残差连接之后(如GPT)或之前(如LLaMA)。
-
输出层
- 最后一层的输出经过一个线性层(词汇表大小 × 隐藏层维度),将隐藏状态映射到整个词汇表上。
- 再通过一个Softmax函数,转换为每个词的概率分布,用于预测下一个词。
工作流程(以生成文本为例)
- 分词:将输入文本(如“今天天气很好”)切分成模型能理解的 tokens([“今”, “天”, “天气”, “很”, “好”])。
- 嵌入:将 tokens 转换为向量,并加上位置信息。
- 前向传播:向量依次通过堆叠的N个 Transformer 层,在每一层,信息通过自注意力进行全局交互,再通过前馈网络进行转换,并经由残差连接和层归一化稳定传递。
- 生成:从最终的输出概率分布中,根据某种策略(如贪心、采样、Top-p采样)选取下一个 token。
- 循环:将新生成的 token 加入输入序列,重复步骤2-4,直到生成结束标记或达到长度限制,这个过程称为自回归生成。
关键特性总结
- 并行化训练:由于自注意力不依赖序列顺序,训练时可以对整个序列并行计算,极大提升了效率。
- 强大的长程依赖捕捉能力:自注意力机制理论上可以捕捉任意距离的依赖。
- 可扩展性:模型的能力随着参数量(层数、隐藏维度、注意力头数) 和训练数据量的增大而显著提升,这被总结为 “缩放定律”。
- 通用接口:Transformer架构统一了多种任务(文本、代码、图像多模态),都通过“序列到序列”或“序列生成”的方式处理。
现代大模型的演进趋势
在基础Transformer之上,现代大模型还在以下方面进行优化:
- 更高效的注意力机制:如旋转位置编码,更好地处理长文本。
- 激活函数:如 SwiGLU,提升性能。
- 归一化:如 RMSNorm,简化计算。
- 混合专家:如 Mixtral-8x7B,让不同的专家处理不同的输入,在增加参数总量的同时不增加计算成本。
大模型的基础结构是一个由 Transformer层 堆叠而成的深度神经网络,其核心是自注意力机制,并通过残差连接和层归一化保证其稳定训练,正是这一优雅而强大的设计,催生了当前人工智能的浪潮。
标签: Transformer LLM