从“分析”到“合成”
- 传统判别式模型:解决“这是什么?”的问题,图像分类(判断图片是猫还是狗)、垃圾邮件过滤,它学习的是不同类别数据之间的边界。
- 生成式模型:解决“如何创造这个?”的问题,写一首诗、画一幅画、生成一段代码,它学习的是数据本身的内在结构和分布,其目标是理解数据是如何“构成”的,以便能从头开始合成类似的数据。
一个生动的比喻:

- 判别式模型像一位艺术鉴定家,他学习大量真品和赝品的特征,然后判断一幅新画作是真还是假。
- 生成式模型像一位画家学徒,他临摹和研究大量大师的作品,学习笔触、配色、构图,最终能够自己创作出一幅具有大师风格的新画作。
技术基石:神经网络与自注意力机制
现代生成式AI的爆发主要归功于两项技术:
- 深度神经网络:特别是Transformer架构,它能够处理海量的序列数据(如文本、代码),并理解数据内部元素之间复杂的、长距离的依赖关系。
- 自注意力机制:这是Transformer的核心,它允许模型在处理一个词(或图像块)时,“关注”序列中所有其他相关的词,从而全局地理解上下文,这使得模型能生成连贯、符合逻辑的长文本。
关键过程:如何“生成”?
生成式AI的运作通常分为两个阶段:
A. 训练(学习数据分布)
- 输入海量数据:给模型“喂食”互联网级别的文本、图像-文本对、代码等数据。
- 构建预测任务:模型通过一个核心任务来学习,对于文本,最常见的是 “下一个词预测” ,给定“今天的天气很…”,模型学习预测最可能的下一个词是“好”、“晴朗”还是“糟糕”,通过数十亿次的此类练习,模型逐渐掌握了语法、事实知识、逻辑推理甚至风格。
- 形成“世界模型”:经过训练,模型在其参数中形成了一个压缩的、统计意义上的“世界模型”,它不是一个数据库,而是一个概率分布网络,知道哪些词序列、像素组合在现实世界中是合理、常见的。
B. 推理/生成(基于概率抽样)
- 接收提示:用户给出一个指令或问题。
- 概率计算:模型基于其学到的“世界模型”,计算下一个输出单元(如下一个词、下一个像素)所有可能选择的概率。
- 抽样选择:根据计算出的概率进行抽样,这里有不同的策略:
- 贪婪搜索:总是选概率最高的,结果可能准确但枯燥。
- 随机抽样:按概率随机选,结果更有创意和多样性,通过调整“温度”参数,可以控制抽样的随机性。
- 自回归生成:将选出的词(或像素)加回到输入中,重复步骤2-3,像“滚雪球”一样逐个生成后续内容,直到生成完整序列或达到停止条件。
主要技术路径(针对不同模态)
-
文本生成(如GPT系列):
- 基于Transformer解码器。
- 核心是自回归的下一个词预测。
-
图像生成(如DALL-E、Midjourney、Stable Diffusion):
- 主流采用 “扩散模型” 。
- 基本原理:
- 前向过程:给一张训练图片逐步添加高斯噪声,直到变成完全随机的噪声。
- 反向过程:训练一个神经网络去学习如何一步步地将这个纯噪声“去噪”,恢复成一张清晰的图片。
- 生成:从一个纯随机噪声开始,让训练好的模型执行去噪过程,并根据文本提示的引导,最终生成一张全新的、符合描述的图片。
-
多模态生成(如GPT-4V、Sora):
- 将文本、图像、视频等不同模态的数据,映射到同一个隐式语义空间中进行联合训练。
- 模型学习到不同模态之间概念的对应关系(如“狗”这个词与狗的图像特征的关联),从而实现跨模态的理解和生成(文生图、图生文、文生视频)。
当前能力的来源与局限
-
能力来源:
- 规模定律:模型参数、训练数据和计算力的指数级增长,带来了能力的质变。
- 涌现能力:当模型规模超过某个阈值后,会突然出现一些小规模模型不具备的能力,如复杂的推理、指令遵循等。
- 对齐技术:通过指令微调、基于人类反馈的强化学习等技术,让模型的输出更符合人类的价值和需求。
-
根本局限:
- 没有真正的理解:本质是模式匹配和概率计算,而非认知或理解,它不知道它“说”的是什么。
- 缺乏规划与验证:生成过程是局部、逐次的,缺乏全局规划,可能导致事实错误(幻觉)或逻辑矛盾。
- 依赖训练数据:知识受限于训练数据,无法直接获取最新信息或进行真正的逻辑演绎。
- 可能产生偏见与有害内容:会反映并放大训练数据中存在的偏见和错误信息。
生成式AI的基本原理是:利用深度神经网络(特别是Transformer),通过在海量数据上完成预测任务(如下一个词预测),学习到数据背后的复杂概率分布,然后在推理时,通过从这个分布中进行自回归抽样,生成符合语境和提示的全新内容。 它是一场从“分析智能”到“合成智能”的范式转移,但其核心仍是高级的统计建模,而非人类意义上的智能。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。