一、前扩散时代，奠基与探索

星博讯 AI热议话题 2026-04-14 35

早期尝试（2010年代中期）：
- 基于GAN：使用生成对抗网络，如StackGAN、AttnGAN，首次实现了从文本到图像的生成，但存在模式崩溃、图像质量低、分辨率差（通常仅64x64或128x128）和不稳定等问题。
- 自回归模型：如DALL-E初代，将图像视为像素序列，像生成文本一样逐个像素预测，能生成有创意的图像，但计算成本极高，生成速度慢。
重要突破 - VQ-VAE & VQ-GAN（2021）：
- 将图像压缩到离散的“视觉词表”中，大大降低了建模的复杂度，为后续的扩散模型提供了高质量的图像表示基础，这是DALL-E 1和CogView等模型的核心组件。

扩散时代：质量与普及的飞跃

核心思想：通过一个“去噪”过程，将随机噪声逐步转化为目标图像，这比GAN更稳定，生成的图像质量和多样性更高。

开山之作：GLIDE 和 DALL-E 2。
- 证明了CLIP引导的有效性：利用对比学习模型CLIP将文本和图像在同一个语义空间中对齐，指导扩散过程，极大地提升了文本与图像的语义对齐度。
- DALL-E 2引入了先验模型（将文本编码为图像表示）和解码器模型（将图像表示解码为高清图）的两阶段架构。
全面超越：Stable Diffusion。
- 关键创新：在隐空间而非像素空间进行扩散（Latent Diffusion），计算效率成倍提升，使得高质量文生图可以在消费级GPU上运行。
- 开源效应：其开源引爆了整个生态，催生了LoRA、ControlNet等微调和控制技术，成为行业事实标准。

当前的发展不再单纯追求“像”，而是追求“精”、“准”、“一致”。

精确空间控制：
- ControlNet：为扩散模型添加空间条件（如边缘图、深度图、姿态关键点），实现对构图、结构、姿态的精确控制，将文生图从“抽卡”变成了“设计”。
提升提示词遵循与图像质量：
- DALL-E 3：与ChatGPT深度集成，能理解更长、更复杂的自然语言描述，提示词遵循能力显著提升。
- SDXL：更大的模型参数和更复杂的架构（Base + Refiner双模型），在图像质量、构图和概念遵循上迈上新台阶。
- 提示词工程：Negative Prompt、风格模板等技巧，让用户能更精细地控制输出。
解决“一致性”难题：
- 角色/风格一致性：这是当前最热门的赛道，模型如LoRA、IP-Adapter、InstantID等，允许用户通过少量图像“定制”一个专属角色或画风，并在不同场景中保持稳定。
- 多视图/3D一致性：如Zero-1-to-3、MVDream，能从单图生成多视角一致的图片，为3D资产创建铺平道路。
视频与动态生成：
- Sora、Runway Gen-2、Pika等模型，将文生图扩展到文生视频，它们需要解决时间维度上的一致性、合理的物理运动等更复杂的问题。

阶段	核心模型/技术	解决的问题	主要局限
前扩散	GAN， VQ-VAE	证明“文生图”可行性	质量低、不稳定、成本高
扩散崛起	DALL-E 2, Stable Diffusion	图像质量与普及度	控制力弱、提示词需“咒语”
精细控制	ControlNet, LoRA	空间控制与风格定制	角色一致性、复杂构图
动态一致	Sora, Gen-2	时间维度的一致性	时长、物理合理性、逻辑性
未来方向	多模态统一模型	世界模型、3D生成、超个性化	算力、数据、认知理解