变分自编码器是一种结合了深度学习与概率图模型的强大生成模型。简单来说，它是一个能学习数据分布，并可以从该分布中生成新样本的神经网络

星博讯 AI基础认知 2026-04-09 38

从“确定性编码”到“概率性编码”

为了更好地理解VAE,我们先从其前身——标准自编码器说起。

变分自编码器是一种结合了深度学习与概率图模型的强大生成模型。简单来说，它是一个能学习数据分布，并可以从该分布中生成新样本的神经网络-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

标准自编码器：
- 结构：由编码器和解码器两部分组成，编码器将输入数据 x（如图片）压缩成一个低维的潜在向量 z，解码器则尝试从这个 z 重构出原始输入 x‘。
- 目标：最小化重构误差（如均方误差），让 x‘ 尽可能接近 x。
- 问题：它的潜在空间 z 是确定性的，结构可能是混乱、不连续的，如果你在潜在空间中随机取一个点，解码器很可能生成一个无意义的输出，它主要用于数据降维和去噪，而非生成新数据。
变分自编码器的飞跃：
- VAE 的核心改变是：编码器不再输出一个确定的 z，而是输出一个概率分布（通常是高斯分布）的参数。
- 对于输入 x，编码器输出两个向量：μ（均值）和 σ（方差），这意味着潜在变量 z 是从一个由 N(μ, σ²) 定义的分布中采样得到的。
- 这个设计带来了两个关键优势：
  - 连续性和完整性：通过强制潜在空间遵循一个先验分布（通常是标准正态分布 N(0, I)），VAE 鼓励整个潜在空间变得平滑、连续，在平滑的空间中，任意点解码后都应生成一个有意义的数据。
  - 生成能力：由于我们定义了潜在空间的先验分布，要生成新数据时，只需从 N(0, I) 中随机采样一个 z，然后送入解码器即可。

VAE 的训练目标是最大化数据 x 的证据下界，其损失函数由两部分组成：

损失 = 重构损失 + KL 散度损失

重构损失：与标准自编码器类似，衡量解码器输出与原始输入的差异（如交叉熵或均方误差），这确保了生成的数据要像原始数据。
KL 散度损失：衡量编码器产生的分布 N(μ, σ²) 与先验分布 N(0, I) 之间的差异，它的作用是“正则化”潜在空间，使其趋向于标准正态分布，从而保证空间的规整性和可生成性。

一个关键挑战：采样操作不可导 直接从分布 N(μ, σ²) 采样 z 是一个随机过程，梯度无法反向传播，VAE 使用了一个聪明的 “重参数化技巧” 来解决：

标准自编码器：像是一个“无损压缩”算法，它试图为每张图片找一个特定的“压缩代码”来精确还原它。
变分自编码器：像是一个“画家”，它不记忆代码，而是学习图片的“本质特征”（如姿势、表情、发型），对于一张人脸图片，编码器会学习到“微笑程度=0.8，脸型=0.3”等属性的概率分布，生成时，你只需要告诉解码器“我想要一个微笑程度=0.9，脸型=0.5的人脸”，它就能画出来，潜在空间的每个维度都对应着某种有意义的语义特征。