概率建模与序列预测
文本生成的本质是 “给定一段上下文,预测下一个最可能出现的词/字,并不断重复这个过程”。

-
将其建模为一个概率问题:对于一个序列(比如一句话)
W = (w1, w2, w3, ..., wT),其出现的概率可以分解为一系列条件概率的乘积:P(W) = P(w1) * P(w2|w1) * P(w3|w1, w2) * ... * P(wT|w1, w2, ..., wT-1)即,整个句子的概率 = 第一个词的概率 × 在第一个词基础上第二个词的概率 × ... -
文本生成过程就是逆向计算这个公式:
- 输入:起始提示(Prompt),今天天气很好,”。
- 模型计算:在已知“今天天气很好,”的条件下,下一个词的概率分布
P(下一个词 | “今天天气很好,” ),可能的候选有:“我们”(概率0.4)、“我想”(概率0.3)、“(概率0.2)... - 采样策略:根据这个概率分布,选择一个词作为输出,选择方式可以是直接选概率最高的(贪心搜索),也可以是按概率随机采样(引入随机性,更有创意),或者用更复杂的束搜索。
- 循环迭代:将选出的词追加到输入序列中,形成新的上下文,重复上述过程,直到生成结束标记或达到长度限制。
文本生成模型的核心任务,就是极其准确地估算这个条件概率 P(下一个词 | 所有历史上下文)。
主流模型架构演进
为了估算这个概率,模型架构经历了数次革命:
-
统计语言模型(N-gram):
- 原理:基于马尔可夫假设,认为一个词的概率只依赖于它前面有限的
N-1个词,在3-gram模型中,P(w3|w1, w2) ≈ P(w3|w2)。 - 缺点:无法建模长程依赖,参数空间随N增大爆炸式增长,本质是词表的“查表”,没有语义理解。
- 原理:基于马尔可夫假设,认为一个词的概率只依赖于它前面有限的
-
神经网络语言模型(RNN/LSTM):
- 原理:使用循环神经网络或其变体LSTM/GRU,将可变长度的历史信息压缩到一个固定维度的“隐状态”向量中,这个向量包含了之前所有词的语义信息,用于预测下一个词。
- 优点:能处理变长序列,比N-gram更有效地捕捉长程依赖。
- 缺点:顺序计算,无法并行,训练慢;且在处理很长的序列时,早期信息仍会衰减或丢失(长期依赖问题虽缓解但未根治)。
-
Transformer 与 自回归模型(GPT系列):
- 这是当前绝对的主流和基石。
- 核心突破:
- 自注意力机制:每个词在预测时都可以直接“看到”并权衡序列中所有其他词的重要性,无论距离多远,彻底解决了长程依赖问题。
- 并行计算:训练时整个序列可以同时计算,极大提升了效率。
- GPT(生成式预训练Transformer)范式:
- 架构:采用Decoder-Only的Transformer结构,它使用带掩码的自注意力,确保在预测第
i个词时,只能看到< i的位置,从而符合自回归生成的条件。 - 流程:
- 预训练:在海量无标注文本(互联网规模)上进行“下一个词预测”任务,这个阶段让模型学会了语言的通用语法、事实知识和推理模式,学到的结果就是拥有数百亿甚至万亿参数的“基础模型”。
- 微调与对齐(如ChatGPT):在预训练模型基础上,用指令和人类反馈数据进行有监督微调、奖励模型训练和强化学习,使模型能遵循指令、生成有用、无害、诚实的回答。
- 架构:采用Decoder-Only的Transformer结构,它使用带掩码的自注意力,确保在预测第
生成过程的关键技术
在模型根据概率分布 P(下一个词 | 上下文) 进行采样时,有多种策略,影响生成结果的质量和多样性:
- 贪心搜索:永远选概率最高的词,容易导致重复、单调的文本。
- 束搜索:保留Top-K(如K=4)个候选序列并行探索,最后选整体概率最高的序列,在机器翻译等任务中效果好,但在开放生成中仍可能缺乏多样性。
- 采样:
- 随机采样:按概率随机挑选,可能选出不合适的生僻词。
- 核采样(Top-p采样):从累积概率超过
p(如0.9)的最小词集合中随机采样,动态控制候选集大小,在保持连贯性的同时增加多样性。这是目前最常用的策略之一。 - 温度控制:在计算Softmax概率前,将逻辑值除以一个温度参数
T。T = 1:原始分布。T → 0:分布变得尖锐,趋向贪心搜索。T > 1:分布变得平缓,增加随机性和创造性,但也可能产生乱码。
总结与挑战
基础原理总结: 文本生成 = 基于深度神经网络(尤其是Transformer)的、自回归的、下一个词的概率预测与采样过程。
主要挑战:
- 事实一致性:模型可能生成看似流畅但不符合事实的“幻觉”内容。
- 可控性:如何精确控制生成文本的风格、主题、情感、格式等属性。
- 长程连贯性:生成长文档时,如何保持前后逻辑、角色、情节的一致性。
- 偏见与安全:模型会继承训练数据中的社会偏见,并可能被恶意利用生成有害内容。
当前趋势:
- 更大的规模与多模态:向万亿参数发展,并从纯文本走向融合视觉、音频的多模态生成。
- 检索增强生成:结合外部知识库,在生成时检索相关信息,减少幻觉。
- 更高效的结构:研究Mamba等新架构,追求Transformer级别的性能但更高的效率。
- 更强的可控与对齐:通过更精细的微调和提示工程,让模型更好地成为人类的助手。
你可以把现代文本生成模型想象成一个拥有海量“阅读记忆”、极其擅长玩“词语接龙”游戏的超级大脑,它的每一次续写,都是基于其全部所学,对可能性空间的一次精妙探索。