1.核心定义

星博讯 AI基础认知 2026-04-09 1

对抗样本 是指经过精心构造的、对人类感知几乎无法察觉的输入数据（如图像、音频、文本），这些输入能够“欺骗”或“误导”原本性能强大的机器学习模型（尤其是深度学习模型）,使其做出错误的预测或输出。

1.核心定义-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

一个著名的比喻：给一张“熊猫”的图片加上一层人眼几乎看不出的特殊“噪声”（扰动），模型就会非常自信地将其识别为“长臂猿”。

核心思想与特性

微小扰动：对抗性扰动通常非常微小，不会改变数据在人类眼中的语义（人看起来还是熊猫）。
针对性：扰动不是随机的，而是针对特定模型、利用其决策边界的脆弱性计算出来的。
高置信度错误：模型不仅会犯错，而且经常以极高的置信度输出一个完全错误的类别。
揭示脆弱性：对抗样本暴露了现代机器学习模型（尤其是深度神经网络）的一个根本性问题：它们的决策逻辑与人类的感知和理解方式存在显著差异，模型学到的是数据表面统计特征的复杂组合，而非人类所理解的“语义概念”。

根本原因在于高维空间的线性特性，即使在人类感知的维度上扰动很小，但在模型处理的高维特征空间中，无数个微小变化的叠加可以沿着使模型出错的“方向”产生巨大的累积效应。

模型的线性近似：深度神经网络虽然在整体上是非线性的，但在局部的小范围内，其行为可以被很好地线性近似,攻击就是在这个线性区域里找到一个有效的扰动方向。
数据流形的非全覆盖：训练数据只能覆盖整个数据空间的一小部分（数据流形），在流形之间的广阔空白区域，模型的行为是未定义且不稳定的,对抗样本就存在于这些区域。

可以从攻击者的知识和攻击目标两个维度分类：

白盒攻击：攻击者拥有对目标模型的全部知识，包括模型结构、参数、训练数据等，可以精确计算梯度来生成扰动（如FGSM, PGD）。
黑盒攻击：攻击者不知道模型内部细节，只能通过查询（输入-输出）来探测模型行为，通常通过训练一个替代模型,或使用基于查询的优化方法来生成对抗样本。
灰盒攻击：介于两者之间，知道部分信息（如模型结构但不知道参数）。