一、前扩散时代,奠基与探索

星博讯 AI热议话题 1
  1. 早期尝试(2010年代中期)

    一、前扩散时代,奠基与探索-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

    • 基于GAN:使用生成对抗网络,如StackGAN、AttnGAN,首次实现了从文本到图像的生成,但存在模式崩溃、图像质量低、分辨率差(通常仅64x64或128x128)和不稳定等问题。
    • 自回归模型:如DALL-E初代,将图像视为像素序列,像生成文本一样逐个像素预测,能生成有创意的图像,但计算成本极高,生成速度慢。
  2. 重要突破 - VQ-VAE & VQ-GAN(2021)

    • 将图像压缩到离散的“视觉词表”中,大大降低了建模的复杂度,为后续的扩散模型提供了高质量的图像表示基础,这是DALL-E 1CogView等模型的核心组件。

扩散时代:质量与普及的飞跃

核心思想:通过一个“去噪”过程,将随机噪声逐步转化为目标图像,这比GAN更稳定,生成的图像质量和多样性更高。

  • 开山之作GLIDEDALL-E 2

    • 证明了CLIP引导的有效性:利用对比学习模型CLIP将文本和图像在同一个语义空间中对齐,指导扩散过程,极大地提升了文本与图像的语义对齐度。
    • DALL-E 2引入了先验模型(将文本编码为图像表示)和解码器模型(将图像表示解码为高清图)的两阶段架构。
  • 全面超越Stable Diffusion

    • 关键创新:在隐空间而非像素空间进行扩散(Latent Diffusion),计算效率成倍提升,使得高质量文生图可以在消费级GPU上运行。
    • 开源效应:其开源引爆了整个生态,催生了LoRA、ControlNet等微调和控制技术,成为行业事实标准。

后扩散时代:控制、一致性与多模态融合

当前的发展不再单纯追求“像”,而是追求“精”、“准”、“一致”。

  1. 精确空间控制

    • ControlNet:为扩散模型添加空间条件(如边缘图、深度图、姿态关键点),实现对构图、结构、姿态的精确控制,将文生图从“抽卡”变成了“设计”。
  2. 提升提示词遵循与图像质量

    • DALL-E 3:与ChatGPT深度集成,能理解更长、更复杂的自然语言描述,提示词遵循能力显著提升。
    • SDXL:更大的模型参数和更复杂的架构(Base + Refiner双模型),在图像质量、构图和概念遵循上迈上新台阶。
    • 提示词工程:Negative Prompt、风格模板等技巧,让用户能更精细地控制输出。
  3. 解决“一致性”难题

    • 角色/风格一致性:这是当前最热门的赛道,模型如LoRAIP-AdapterInstantID等,允许用户通过少量图像“定制”一个专属角色或画风,并在不同场景中保持稳定。
    • 多视图/3D一致性:如Zero-1-to-3MVDream,能从单图生成多视角一致的图片,为3D资产创建铺平道路。
  4. 视频与动态生成

    • SoraRunway Gen-2Pika等模型,将文生图扩展到文生视频,它们需要解决时间维度上的一致性、合理的物理运动等更复杂的问题。

未来迭代方向

  1. 更长形式与更强的可控性:生成更长、更连贯、故事性更强的视频,并实现镜头语言级别的控制。
  2. 3D与空间生成:直接根据文本生成高质量的3D模型或场景(NeRF、高斯泼溅等格式)。
  3. 世界模拟与物理理解:生成的视频或场景需要符合基础物理规律,模型需要更深刻的世界知识。
  4. 个性化与高效率:用更少的数据、更快的速度训练出个人专属的高质量模型。
  5. 多模态统一:不再区分文生图、文生视频、图生文,而是构建一个能理解和生成任何模态内容的统一模型(通向AGI的重要路径)。

总结演进脉络:

阶段 核心模型/技术 解决的问题 主要局限
前扩散 GAN, VQ-VAE 证明“文生图”可行性 质量低、不稳定、成本高
扩散崛起 DALL-E 2, Stable Diffusion 图像质量普及度 控制力弱、提示词需“咒语”
精细控制 ControlNet, LoRA 空间控制风格定制 角色一致性、复杂构图
动态一致 Sora, Gen-2 时间维度的一致性 时长、物理合理性、逻辑性
未来方向 多模态统一模型 世界模型3D生成超个性化 算力、数据、认知理解

文生图模型的迭代路径是:从“能看”到“好看”,从“随机”到“可控”,从“单帧”到“连续”,最终目标是构建一个能理解和创造多模态内容的“世界模拟器”,目前我们正处在从“精细控制”向“动态一致”跨越的关键节点上。

标签: 前扩散时代 奠基与探索

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00