我们可以从宏观流程、核心模型架构、关键技术细节以及挑战与趋势这几个层面来理解

星博讯 AI基础认知 1

概率建模与序列预测

文本生成的本质是 “给定一段上下文,预测下一个最可能出现的词/字,并不断重复这个过程”

我们可以从宏观流程、核心模型架构、关键技术细节以及挑战与趋势这几个层面来理解-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

  1. 将其建模为一个概率问题:对于一个序列(比如一句话)W = (w1, w2, w3, ..., wT),其出现的概率可以分解为一系列条件概率的乘积: P(W) = P(w1) * P(w2|w1) * P(w3|w1, w2) * ... * P(wT|w1, w2, ..., wT-1) 即,整个句子的概率 = 第一个词的概率 × 在第一个词基础上第二个词的概率 × ...

  2. 文本生成过程就是逆向计算这个公式

    • 输入:起始提示(Prompt),今天天气很好,”。
    • 模型计算:在已知“今天天气很好,”的条件下,下一个词的概率分布 P(下一个词 | “今天天气很好,” ),可能的候选有:“我们”(概率0.4)、“我想”(概率0.3)、“(概率0.2)...
    • 采样策略:根据这个概率分布,选择一个词作为输出,选择方式可以是直接选概率最高的(贪心搜索),也可以是按概率随机采样(引入随机性,更有创意),或者用更复杂的束搜索。
    • 循环迭代:将选出的词追加到输入序列中,形成新的上下文,重复上述过程,直到生成结束标记或达到长度限制。

文本生成模型的核心任务,就是极其准确地估算这个条件概率 P(下一个词 | 所有历史上下文)

主流模型架构演进

为了估算这个概率,模型架构经历了数次革命:

  1. 统计语言模型(N-gram)

    • 原理:基于马尔可夫假设,认为一个词的概率只依赖于它前面有限的 N-1 个词,在3-gram模型中,P(w3|w1, w2) ≈ P(w3|w2)
    • 缺点:无法建模长程依赖,参数空间随N增大爆炸式增长,本质是词表的“查表”,没有语义理解。
  2. 神经网络语言模型(RNN/LSTM)

    • 原理:使用循环神经网络或其变体LSTM/GRU,将可变长度的历史信息压缩到一个固定维度的“隐状态”向量中,这个向量包含了之前所有词的语义信息,用于预测下一个词。
    • 优点:能处理变长序列,比N-gram更有效地捕捉长程依赖。
    • 缺点顺序计算,无法并行,训练慢;且在处理很长的序列时,早期信息仍会衰减或丢失(长期依赖问题虽缓解但未根治)。
  3. Transformer 与 自回归模型(GPT系列)

    • 这是当前绝对的主流和基石
    • 核心突破
      • 自注意力机制:每个词在预测时都可以直接“看到”并权衡序列中所有其他词的重要性,无论距离多远,彻底解决了长程依赖问题。
      • 并行计算:训练时整个序列可以同时计算,极大提升了效率。
    • GPT(生成式预训练Transformer)范式
      • 架构:采用Decoder-Only的Transformer结构,它使用带掩码的自注意力,确保在预测第 i 个词时,只能看到 < i 的位置,从而符合自回归生成的条件。
      • 流程
        • 预训练:在海量无标注文本(互联网规模)上进行“下一个词预测”任务,这个阶段让模型学会了语言的通用语法、事实知识和推理模式,学到的结果就是拥有数百亿甚至万亿参数的“基础模型”。
        • 微调与对齐(如ChatGPT):在预训练模型基础上,用指令和人类反馈数据进行有监督微调、奖励模型训练和强化学习,使模型能遵循指令、生成有用、无害、诚实的回答。

生成过程的关键技术

在模型根据概率分布 P(下一个词 | 上下文) 进行采样时,有多种策略,影响生成结果的质量和多样性:

  • 贪心搜索:永远选概率最高的词,容易导致重复、单调的文本。
  • 束搜索:保留Top-K(如K=4)个候选序列并行探索,最后选整体概率最高的序列,在机器翻译等任务中效果好,但在开放生成中仍可能缺乏多样性。
  • 采样
    • 随机采样:按概率随机挑选,可能选出不合适的生僻词。
    • 核采样(Top-p采样):从累积概率超过 p(如0.9)的最小词集合中随机采样,动态控制候选集大小,在保持连贯性的同时增加多样性。这是目前最常用的策略之一。
    • 温度控制:在计算Softmax概率前,将逻辑值除以一个温度参数 T
      • T = 1:原始分布。
      • T → 0:分布变得尖锐,趋向贪心搜索。
      • T > 1:分布变得平缓,增加随机性和创造性,但也可能产生乱码。

总结与挑战

基础原理总结文本生成 = 基于深度神经网络(尤其是Transformer)的、自回归的、下一个词的概率预测与采样过程。

主要挑战

  1. 事实一致性:模型可能生成看似流畅但不符合事实的“幻觉”内容。
  2. 可控性:如何精确控制生成文本的风格、主题、情感、格式等属性。
  3. 长程连贯性:生成长文档时,如何保持前后逻辑、角色、情节的一致性。
  4. 偏见与安全:模型会继承训练数据中的社会偏见,并可能被恶意利用生成有害内容。

当前趋势

  • 更大的规模与多模态:向万亿参数发展,并从纯文本走向融合视觉、音频的多模态生成。
  • 检索增强生成:结合外部知识库,在生成时检索相关信息,减少幻觉。
  • 更高效的结构:研究Mamba等新架构,追求Transformer级别的性能但更高的效率。
  • 更强的可控与对齐:通过更精细的微调和提示工程,让模型更好地成为人类的助手。

你可以把现代文本生成模型想象成一个拥有海量“阅读记忆”、极其擅长玩“词语接龙”游戏的超级大脑,它的每一次续写,都是基于其全部所学,对可能性空间的一次精妙探索。

标签: 宏观流程 核心模型架构

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00