什么是GAN?

星博讯 AI基础认知 1

生成对抗网络 是一种深度学习模型,是 生成模型 的一种,它的核心思想非常巧妙:通过让两个神经网络相互对抗、相互博弈,从而学习到真实数据的分布,并创造出新的、逼真的数据。

什么是GAN?-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

最常被用来类比的就是 “假币制造者”“警察” 的故事:

  • 假币制造者 的目标是不断改进假币的工艺,让它看起来和真币一模一样。
  • 警察 的目标是不断提高自己的鉴别能力,能准确分辨出真币和假币。
  • 在这个博弈过程中,假币制造者的“造假”技术被迫不断提升,直到他造出的假币连最顶尖的警察也无法分辨。

GAN的核心架构:两大角色

GAN正是由这两个互相对抗的网络组成:

  1. 生成器

    • 角色: 上述故事中的“假币制造者”。
    • 输入: 接收一个随机的噪声向量。
    • 目标: 将噪声“翻译”或“变形”成一张看起来像来自真实数据分布的样本(如图像、文本等),它一开始生成的都是毫无意义的噪声图。
    • 它想赢吗? 它希望自己生成的“假数据”能骗过判别器。
  2. 判别器

    • 角色: 上述故事中的“警察”。
    • 输入: 接收一张图片,这张图片可能来自 真实数据集,也可能来自 生成器
    • 目标: 输出一个概率值,判断这张图是“真实的”还是“生成的”,它是一个二分类器。
    • 它想赢吗? 它希望能准确区分真假。

训练过程:一场动态博弈

GAN的训练是一个交替进行的、动态的过程,可以用以下流程图清晰地展示其核心循环:

flowchart TD
A[开始训练] --> B[固定生成器G<br>训练判别器D]
B --> C[D学习区分<br>真实图像 & 生成图像]
C --> D[固定判别器D<br>训练生成器G]
D --> E[G学习生成<br>能骗过D的图像]
E --> B
B --> F{训练是否收敛?}
F -- 否 --> B
F -- 是 --> G[结束训练<br>生成器可生成逼真数据]
  1. 第一阶段:训练判别器

    • 从真实数据集中抽取一批真实图片。
    • 从生成器获取一批由随机噪声生成的假图片。
    • 将这两批图片混合,打上标签(真/假),用来训练判别器。
    • 目标: 提升判别器区分真假的能力。
  2. 第二阶段:训练生成器

    • 固定住判别器的参数(不让它更新)。
    • 让生成器生成一批假图片,然后直接输入给判别器判断。
    • 我们翻转标签,即告诉生成器:“这些你生成的图片,我们希望判别器把它们判断为‘真实的’”。
    • 目标: 根据判别器给出的“差评”,反向传播来更新生成器的参数,让它生成更逼真的图片,以骗过判别器。

这个过程反复进行,理想情况下,博弈会达到一个 纳什均衡

  • 生成器能生成足以乱真的数据。
  • 判别器面对任何数据,判断真假的准确率都是50%(即完全无法区分,相当于在瞎猜)。

我们就得到了一个强大的生成器。


GAN的优势与挑战

优势:

  • 生成质量高: 在许多领域(尤其是图像生成),GAN生成的样本清晰度和逼真度往往优于其他生成模型。
  • 无需显式建模: 它不需要对复杂的数据分布进行复杂的数学建模,而是通过对抗过程自动学习。
  • 创造力强: 可以生成训练集中不存在但符合数据规律的新样本。

挑战与问题:

  1. 训练不稳定: 这是GAN最大的难题,生成器和判别器的平衡非常微妙,容易一方过强导致训练崩溃。
  2. 模式崩溃: 生成器可能找到判别器的一个“漏洞”,然后只生成少数几种能骗过判别器的样本,导致多样性急剧下降。
  3. 评估困难: 如何客观、定量地评价生成图像的质量和多样性,至今仍是一个活跃的研究课题。

GAN的主要变体与演进

为了克服上述问题,研究人员提出了许多改进的GAN:

  • DCGAN: 将CNN引入GAN,奠定了使用深度卷积网络构建GAN的基础架构,极大地提升了图像生成的稳定性与质量。
  • WGAN / WGAN-GP: 通过使用 Wasserstein距离梯度惩罚 来替代原始的损失函数,极大地改善了训练稳定性。
  • CycleGAN: 实现了 无配对数据 的图像到图像的转换,例如将马变成斑马,将照片变成莫奈风格的画作。
  • StyleGAN: NVIDIA提出的一系列模型,能对生成图像的风格进行前所未有的精细控制(如控制发型、姿势、光照等),生成的 人脸逼真度极高,引起了广泛关注和争议。

主要应用领域

  • 图像生成与编辑: 生成不存在的人脸、艺术品、设计草图;图像修复、超分辨率、上色等。
  • 数据增强: 为小样本数据集生成额外的训练数据。
  • 风格迁移: 将一种图像的风格应用到另一种图像上。
  • 药物发现与材料设计: 生成具有特定属性的新分子结构。
  • 游戏与影视: 自动生成游戏场景、角色或影视特效。

GAN的核心魅力在于其 “对抗”思想,它用一个简单的博弈框架,解决了复杂的生成问题,虽然训练过程充满挑战,但它为人工智能的“创造力”开辟了一条全新的道路,是深度学习领域最具影响力的发明之一,从最初的简单框架到如今能生成以假乱真图像的StyleGAN,它的发展深刻地影响了计算机视觉、艺术创作和科学研究等多个领域。

标签: 生成器 判别器

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00