什么是GAN？

星博讯 AI基础认知 2026-04-09 35

生成对抗网络 是一种深度学习模型，是 生成模型 的一种，它的核心思想非常巧妙：通过让两个神经网络相互对抗、相互博弈，从而学习到真实数据的分布，并创造出新的、逼真的数据。

什么是GAN？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

最常被用来类比的就是 “假币制造者” 和 “警察” 的故事：

假币制造者 的目标是不断改进假币的工艺,让它看起来和真币一模一样。
警察的目标是不断提高自己的鉴别能力,能准确分辨出真币和假币。
在这个博弈过程中，假币制造者的“造假”技术被迫不断提升,直到他造出的假币连最顶尖的警察也无法分辨。

GAN的核心架构：两大角色

GAN正是由这两个互相对抗的网络组成：

生成器
- 角色：上述故事中的“假币制造者”。
- 输入：接收一个随机的噪声向量。
- 目标：将噪声“翻译”或“变形”成一张看起来像来自真实数据分布的样本（如图像、文本等）,它一开始生成的都是毫无意义的噪声图。
- 它想赢吗？ 它希望自己生成的“假数据”能骗过判别器。
判别器
- 角色：上述故事中的“警察”。
- 输入：接收一张图片，这张图片可能来自 真实数据集，也可能来自 生成器。
- 目标：输出一个概率值，判断这张图是“真实的”还是“生成的”,它是一个二分类器。
- 它想赢吗？ 它希望能准确区分真假。

训练过程：一场动态博弈

GAN的训练是一个交替进行的、动态的过程,可以用以下流程图清晰地展示其核心循环：

flowchart TD
A[开始训练] --> B[固定生成器G<br>训练判别器D]
B --> C[D学习区分<br>真实图像 & 生成图像]
C --> D[固定判别器D<br>训练生成器G]
D --> E[G学习生成<br>能骗过D的图像]
E --> B
B --> F{训练是否收敛?}
F -- 否 --> B
F -- 是 --> G[结束训练<br>生成器可生成逼真数据]

第一阶段：训练判别器
- 从真实数据集中抽取一批真实图片。
- 从生成器获取一批由随机噪声生成的假图片。
- 将这两批图片混合，打上标签（真/假）,用来训练判别器。
- 目标：提升判别器区分真假的能力。
第二阶段：训练生成器
- 固定住判别器的参数（不让它更新）。
- 让生成器生成一批假图片,然后直接输入给判别器判断。
- 我们翻转标签，即告诉生成器：“这些你生成的图片，我们希望判别器把它们判断为‘真实的’”。
- 目标：根据判别器给出的“差评”，反向传播来更新生成器的参数，让它生成更逼真的图片,以骗过判别器。

这个过程反复进行，理想情况下，博弈会达到一个 纳什均衡：

生成器能生成足以乱真的数据。
判别器面对任何数据，判断真假的准确率都是50%（即完全无法区分，相当于在瞎猜）。

我们就得到了一个强大的生成器。

GAN的优势与挑战

优势：

生成质量高：在许多领域（尤其是图像生成）,GAN生成的样本清晰度和逼真度往往优于其他生成模型。
无需显式建模：它不需要对复杂的数据分布进行复杂的数学建模,而是通过对抗过程自动学习。
创造力强：可以生成训练集中不存在但符合数据规律的新样本。

挑战与问题：

训练不稳定：这是GAN最大的难题，生成器和判别器的平衡非常微妙,容易一方过强导致训练崩溃。
模式崩溃：生成器可能找到判别器的一个“漏洞”，然后只生成少数几种能骗过判别器的样本,导致多样性急剧下降。
评估困难：如何客观、定量地评价生成图像的质量和多样性,至今仍是一个活跃的研究课题。

GAN的主要变体与演进

为了克服上述问题,研究人员提出了许多改进的GAN：

DCGAN：将CNN引入GAN，奠定了使用深度卷积网络构建GAN的基础架构,极大地提升了图像生成的稳定性与质量。
WGAN / WGAN-GP：通过使用 Wasserstein距离 和 梯度惩罚 来替代原始的损失函数,极大地改善了训练稳定性。
CycleGAN：实现了 无配对数据 的图像到图像的转换，例如将马变成斑马,将照片变成莫奈风格的画作。
StyleGAN： NVIDIA提出的一系列模型，能对生成图像的风格进行前所未有的精细控制（如控制发型、姿势、光照等），生成的 人脸逼真度极高,引起了广泛关注和争议。

主要应用领域

图像生成与编辑：生成不存在的人脸、艺术品、设计草图；图像修复、超分辨率、上色等。
数据增强：为小样本数据集生成额外的训练数据。
风格迁移：将一种图像的风格应用到另一种图像上。
药物发现与材料设计：生成具有特定属性的新分子结构。
游戏与影视：自动生成游戏场景、角色或影视特效。

GAN的核心魅力在于其 “对抗”思想，它用一个简单的博弈框架，解决了复杂的生成问题，虽然训练过程充满挑战，但它为人工智能的“创造力”开辟了一条全新的道路，是深度学习领域最具影响力的发明之一，从最初的简单框架到如今能生成以假乱真图像的StyleGAN，它的发展深刻地影响了计算机视觉、艺术创作和科学研究等多个领域。

标签：生成器判别器

本文地址： https://xingboxun.cn/post/3982.html