我们可以从宏观流程、核心模型架构、关键技术细节以及挑战与趋势这几个层面来理解

星博讯 AI基础认知 2026-04-09 1

概率建模与序列预测

文本生成的本质是 “给定一段上下文，预测下一个最可能出现的词/字，并不断重复这个过程”。

我们可以从宏观流程、核心模型架构、关键技术细节以及挑战与趋势这几个层面来理解-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

将其建模为一个概率问题：对于一个序列（比如一句话）W = (w1, w2, w3, ..., wT)，其出现的概率可以分解为一系列条件概率的乘积： P(W) = P(w1) * P(w2|w1) * P(w3|w1, w2) * ... * P(wT|w1, w2, ..., wT-1) 即，整个句子的概率 = 第一个词的概率 × 在第一个词基础上第二个词的概率 × ...
文本生成过程就是逆向计算这个公式：
- 输入：起始提示（Prompt），今天天气很好，”。
- 模型计算：在已知“今天天气很好，”的条件下，下一个词的概率分布 P(下一个词 | “今天天气很好，” )，可能的候选有：“我们”（概率0.4）、“我想”（概率0.3）、“（概率0.2）...
- 采样策略：根据这个概率分布，选择一个词作为输出，选择方式可以是直接选概率最高的（贪心搜索），也可以是按概率随机采样（引入随机性，更有创意），或者用更复杂的束搜索。
- 循环迭代：将选出的词追加到输入序列中，形成新的上下文，重复上述过程，直到生成结束标记或达到长度限制。

文本生成模型的核心任务，就是极其准确地估算这个条件概率 P(下一个词 | 所有历史上下文)。

主流模型架构演进

为了估算这个概率,模型架构经历了数次革命：

统计语言模型（N-gram）：
- 原理：基于马尔可夫假设，认为一个词的概率只依赖于它前面有限的 N-1 个词，在3-gram模型中，P(w3|w1, w2) ≈ P(w3|w2)。
- 缺点：无法建模长程依赖，参数空间随N增大爆炸式增长，本质是词表的“查表”，没有语义理解。
神经网络语言模型（RNN/LSTM）：
- 原理：使用循环神经网络或其变体LSTM/GRU，将可变长度的历史信息压缩到一个固定维度的“隐状态”向量中，这个向量包含了之前所有词的语义信息，用于预测下一个词。
- 优点：能处理变长序列，比N-gram更有效地捕捉长程依赖。
- 缺点：顺序计算，无法并行，训练慢；且在处理很长的序列时，早期信息仍会衰减或丢失（长期依赖问题虽缓解但未根治）。
Transformer 与自回归模型（GPT系列）：
- 这是当前绝对的主流和基石。
- 核心突破：
  - 自注意力机制：每个词在预测时都可以直接“看到”并权衡序列中所有其他词的重要性，无论距离多远，彻底解决了长程依赖问题。
  - 并行计算：训练时整个序列可以同时计算，极大提升了效率。
- GPT（生成式预训练Transformer）范式：
  - 架构：采用Decoder-Only的Transformer结构，它使用带掩码的自注意力，确保在预测第 i 个词时，只能看到 < i 的位置，从而符合自回归生成的条件。
  - 流程：
    - 预训练：在海量无标注文本（互联网规模）上进行“下一个词预测”任务，这个阶段让模型学会了语言的通用语法、事实知识和推理模式，学到的结果就是拥有数百亿甚至万亿参数的“基础模型”。
    - 微调与对齐（如ChatGPT）：在预训练模型基础上，用指令和人类反馈数据进行有监督微调、奖励模型训练和强化学习，使模型能遵循指令、生成有用、无害、诚实的回答。

生成过程的关键技术

在模型根据概率分布 P(下一个词 | 上下文) 进行采样时，有多种策略，影响生成结果的质量和多样性：

贪心搜索：永远选概率最高的词，容易导致重复、单调的文本。
束搜索：保留Top-K（如K=4）个候选序列并行探索，最后选整体概率最高的序列，在机器翻译等任务中效果好，但在开放生成中仍可能缺乏多样性。
采样：
- 随机采样：按概率随机挑选，可能选出不合适的生僻词。
- 核采样（Top-p采样）：从累积概率超过 p（如0.9）的最小词集合中随机采样，动态控制候选集大小，在保持连贯性的同时增加多样性。这是目前最常用的策略之一。
- 温度控制：在计算Softmax概率前，将逻辑值除以一个温度参数 T。
  - T = 1：原始分布。
  - T → 0：分布变得尖锐，趋向贪心搜索。
  - T > 1：分布变得平缓，增加随机性和创造性，但也可能产生乱码。