-
早期尝试(2010年代中期):

- 基于GAN:使用生成对抗网络,如StackGAN、AttnGAN,首次实现了从文本到图像的生成,但存在模式崩溃、图像质量低、分辨率差(通常仅64x64或128x128)和不稳定等问题。
- 自回归模型:如DALL-E初代,将图像视为像素序列,像生成文本一样逐个像素预测,能生成有创意的图像,但计算成本极高,生成速度慢。
-
重要突破 - VQ-VAE & VQ-GAN(2021):
- 将图像压缩到离散的“视觉词表”中,大大降低了建模的复杂度,为后续的扩散模型提供了高质量的图像表示基础,这是DALL-E 1和CogView等模型的核心组件。
扩散时代:质量与普及的飞跃
核心思想:通过一个“去噪”过程,将随机噪声逐步转化为目标图像,这比GAN更稳定,生成的图像质量和多样性更高。
-
开山之作:GLIDE 和 DALL-E 2。
- 证明了CLIP引导的有效性:利用对比学习模型CLIP将文本和图像在同一个语义空间中对齐,指导扩散过程,极大地提升了文本与图像的语义对齐度。
- DALL-E 2引入了先验模型(将文本编码为图像表示)和解码器模型(将图像表示解码为高清图)的两阶段架构。
-
全面超越:Stable Diffusion。
- 关键创新:在隐空间而非像素空间进行扩散(Latent Diffusion),计算效率成倍提升,使得高质量文生图可以在消费级GPU上运行。
- 开源效应:其开源引爆了整个生态,催生了LoRA、ControlNet等微调和控制技术,成为行业事实标准。
后扩散时代:控制、一致性与多模态融合
当前的发展不再单纯追求“像”,而是追求“精”、“准”、“一致”。
-
精确空间控制:
- ControlNet:为扩散模型添加空间条件(如边缘图、深度图、姿态关键点),实现对构图、结构、姿态的精确控制,将文生图从“抽卡”变成了“设计”。
-
提升提示词遵循与图像质量:
- DALL-E 3:与ChatGPT深度集成,能理解更长、更复杂的自然语言描述,提示词遵循能力显著提升。
- SDXL:更大的模型参数和更复杂的架构(Base + Refiner双模型),在图像质量、构图和概念遵循上迈上新台阶。
- 提示词工程:Negative Prompt、风格模板等技巧,让用户能更精细地控制输出。
-
解决“一致性”难题:
- 角色/风格一致性:这是当前最热门的赛道,模型如LoRA、IP-Adapter、InstantID等,允许用户通过少量图像“定制”一个专属角色或画风,并在不同场景中保持稳定。
- 多视图/3D一致性:如Zero-1-to-3、MVDream,能从单图生成多视角一致的图片,为3D资产创建铺平道路。
-
视频与动态生成:
- Sora、Runway Gen-2、Pika等模型,将文生图扩展到文生视频,它们需要解决时间维度上的一致性、合理的物理运动等更复杂的问题。
未来迭代方向
- 更长形式与更强的可控性:生成更长、更连贯、故事性更强的视频,并实现镜头语言级别的控制。
- 3D与空间生成:直接根据文本生成高质量的3D模型或场景(NeRF、高斯泼溅等格式)。
- 世界模拟与物理理解:生成的视频或场景需要符合基础物理规律,模型需要更深刻的世界知识。
- 个性化与高效率:用更少的数据、更快的速度训练出个人专属的高质量模型。
- 多模态统一:不再区分文生图、文生视频、图生文,而是构建一个能理解和生成任何模态内容的统一模型(通向AGI的重要路径)。
总结演进脉络:
| 阶段 | 核心模型/技术 | 解决的问题 | 主要局限 |
|---|---|---|---|
| 前扩散 | GAN, VQ-VAE | 证明“文生图”可行性 | 质量低、不稳定、成本高 |
| 扩散崛起 | DALL-E 2, Stable Diffusion | 图像质量与普及度 | 控制力弱、提示词需“咒语” |
| 精细控制 | ControlNet, LoRA | 空间控制与风格定制 | 角色一致性、复杂构图 |
| 动态一致 | Sora, Gen-2 | 时间维度的一致性 | 时长、物理合理性、逻辑性 |
| 未来方向 | 多模态统一模型 | 世界模型、3D生成、超个性化 | 算力、数据、认知理解 |
文生图模型的迭代路径是:从“能看”到“好看”,从“随机”到“可控”,从“单帧”到“连续”,最终目标是构建一个能理解和创造多模态内容的“世界模拟器”,目前我们正处在从“精细控制”向“动态一致”跨越的关键节点上。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。