我们可以从以下几个核心层面来理解其基本原理

星博讯 AI基础认知 1

从“分析”到“合成”

  • 传统判别式模型:解决“这是什么?”的问题,图像分类(判断图片是猫还是狗)、垃圾邮件过滤,它学习的是不同类别数据之间的边界
  • 生成式模型:解决“如何创造这个?”的问题,写一首诗、画一幅画、生成一段代码,它学习的是数据本身的内在结构和分布,其目标是理解数据是如何“构成”的,以便能从头开始合成类似的数据。

一个生动的比喻

我们可以从以下几个核心层面来理解其基本原理-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

  • 判别式模型像一位艺术鉴定家,他学习大量真品和赝品的特征,然后判断一幅新画作是真还是假。
  • 生成式模型像一位画家学徒,他临摹和研究大量大师的作品,学习笔触、配色、构图,最终能够自己创作出一幅具有大师风格的新画作。

技术基石:神经网络与自注意力机制

现代生成式AI的爆发主要归功于两项技术:

  • 深度神经网络:特别是Transformer架构,它能够处理海量的序列数据(如文本、代码),并理解数据内部元素之间复杂的、长距离的依赖关系。
  • 自注意力机制:这是Transformer的核心,它允许模型在处理一个词(或图像块)时,“关注”序列中所有其他相关的词,从而全局地理解上下文,这使得模型能生成连贯、符合逻辑的长文本。

关键过程:如何“生成”?

生成式AI的运作通常分为两个阶段:

A. 训练(学习数据分布)

  1. 输入海量数据:给模型“喂食”互联网级别的文本、图像-文本对、代码等数据。
  2. 构建预测任务:模型通过一个核心任务来学习,对于文本,最常见的是 “下一个词预测” ,给定“今天的天气很…”,模型学习预测最可能的下一个词是“好”、“晴朗”还是“糟糕”,通过数十亿次的此类练习,模型逐渐掌握了语法、事实知识、逻辑推理甚至风格。
  3. 形成“世界模型”:经过训练,模型在其参数中形成了一个压缩的、统计意义上的“世界模型”,它不是一个数据库,而是一个概率分布网络,知道哪些词序列、像素组合在现实世界中是合理、常见的。

B. 推理/生成(基于概率抽样)

  1. 接收提示:用户给出一个指令或问题。
  2. 概率计算:模型基于其学到的“世界模型”,计算下一个输出单元(如下一个词、下一个像素)所有可能选择的概率。
  3. 抽样选择:根据计算出的概率进行抽样,这里有不同的策略:
    • 贪婪搜索:总是选概率最高的,结果可能准确但枯燥。
    • 随机抽样:按概率随机选,结果更有创意和多样性,通过调整“温度”参数,可以控制抽样的随机性。
  4. 自回归生成:将选出的词(或像素)加回到输入中,重复步骤2-3,像“滚雪球”一样逐个生成后续内容,直到生成完整序列或达到停止条件。

主要技术路径(针对不同模态)

  • 文本生成(如GPT系列)

    • 基于Transformer解码器。
    • 核心是自回归的下一个词预测。
  • 图像生成(如DALL-E、Midjourney、Stable Diffusion)

    • 主流采用 “扩散模型”
    • 基本原理
      1. 前向过程:给一张训练图片逐步添加高斯噪声,直到变成完全随机的噪声。
      2. 反向过程:训练一个神经网络去学习如何一步步地将这个纯噪声“去噪”,恢复成一张清晰的图片。
      3. 生成:从一个纯随机噪声开始,让训练好的模型执行去噪过程,并根据文本提示的引导,最终生成一张全新的、符合描述的图片。
  • 多模态生成(如GPT-4V、Sora)

    • 将文本、图像、视频等不同模态的数据,映射到同一个隐式语义空间中进行联合训练。
    • 模型学习到不同模态之间概念的对应关系(如“狗”这个词与狗的图像特征的关联),从而实现跨模态的理解和生成(文生图、图生文、文生视频)。

当前能力的来源与局限

  • 能力来源

    • 规模定律:模型参数、训练数据和计算力的指数级增长,带来了能力的质变。
    • 涌现能力:当模型规模超过某个阈值后,会突然出现一些小规模模型不具备的能力,如复杂的推理、指令遵循等。
    • 对齐技术:通过指令微调、基于人类反馈的强化学习等技术,让模型的输出更符合人类的价值和需求。
  • 根本局限

    • 没有真正的理解:本质是模式匹配和概率计算,而非认知或理解,它不知道它“说”的是什么。
    • 缺乏规划与验证:生成过程是局部、逐次的,缺乏全局规划,可能导致事实错误(幻觉)或逻辑矛盾。
    • 依赖训练数据:知识受限于训练数据,无法直接获取最新信息或进行真正的逻辑演绎。
    • 可能产生偏见与有害内容:会反映并放大训练数据中存在的偏见和错误信息。

生成式AI的基本原理是:利用深度神经网络(特别是Transformer),通过在海量数据上完成预测任务(如下一个词预测),学习到数据背后的复杂概率分布,然后在推理时,通过从这个分布中进行自回归抽样,生成符合语境和提示的全新内容。 它是一场从“分析智能”到“合成智能”的范式转移,但其核心仍是高级的统计建模,而非人类意义上的智能。

标签: 基本原理 核心层面

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00