简单来说，它追求的是，算法不应该因为个人的种族、性别、年龄、宗教信仰等受保护属性（或与其强相关的属性）而对其做出不利的决策

星博讯 AI基础认知 2026-04-09 1

但这一定义在实际操作中非常复杂，下面我将从核心概念、主要公平性准则、技术实现方法和面临的挑战几个层面来系统阐述。

简单来说，它追求的是，算法不应该因为个人的种族、性别、年龄、宗教信仰等受保护属性（或与其强相关的属性）而对其做出不利的决策-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

为什么算法会不公平？（偏见的来源）

算法本身是数学和代码，其不公平性主要源于“垃圾进，垃圾出”：

数据偏见：训练数据反映了现实世界的历史和社会偏见，历史上的招聘数据可能显示男性程序员更多，那么用此数据训练的模型会认为“程序员”与“男性”相关,从而在筛选简历时歧视女性。
标签偏见：用于监督学习的数据标签可能本身就不公平，谁被标记为“高信用风险”？过去的贷款决策可能已经对少数族裔不公平。
建模偏见：特征选择、算法设计、评估指标的选择都可能引入偏见，使用“邮政编码”作为特征可能间接引入种族或经济状况的歧视（在美国尤为明显）。
反馈循环：算法的决策会影响现实，进而产生新的有偏见的数据，形成恶性循环，一个预测警务系统在某个社区部署更多警力，会导致该社区逮捕记录更多，从而让算法认为该社区“犯罪风险更高”,进一步加派警力。

公平性有多重定义，通常没有“唯一正确”的标准，需要根据具体场景权衡,主要分为以下几类：

关注不同受保护群体（如男/女）在整体统计指标上是否得到平等对待。

人口统计平等：不同群体获得有利结果的比例应相同。
- 公式：P(Ŷ=1 | A=男) = P(Ŷ=1 | A=女) （男女贷款获批率相同）
- 问题：可能忽略群体内的资格差异。
机会均等：在“真正合格”的个体中，不同群体获得有利结果的比例应相同。
- 公式：P(Ŷ=1 | A=男, Y=1) = P(Ŷ=1 | A=女, Y=1) （真正会还款的男女客户中,获批率相同）
- 关注“假阴性”：避免剥夺合格个体的机会。
预测率平等：在获得有利预测结果的个体中，不同群体的实际正例比例应相同。
- 公式：P(Y=1 | A=男, Ŷ=1) = P(Y=1 | A=女, Ŷ=1) （获得贷款批准的男女客户中,实际还款的比例相同）
- 关注“假阳性”：避免对某一群体过度风险暴露。

一个经典悖论：除非数据完美或预测完全准确，否则人口统计平等、机会均等和预测率平等通常无法同时满足（由“不可能性定理”指出）,这意味着我们必须根据应用场景选择最重要的公平性目标。

“相似的个体应得到相似的对待”，这要求定义一个合理的“相似度”度量。

关注决策过程是否公平、透明、可解释,并给予个体申诉的权利。

可以在机器学习流程的不同阶段介入：

预处理阶段：修正训练数据以减少偏见。
- 重采样：对代表性不足的群体过采样,或对代表性过度的群体欠采样。
- 数据重构：修改数据特征，使其在保留预测能力的同时,去除与受保护属性的关联。
处理阶段：在模型训练过程中加入公平性约束或优化目标。
- 约束优化：在最小化预测误差的同时,将上述某种群体公平性指标作为约束条件。
- 对抗性学习：训练一个主模型进行预测，同时训练一个“对抗者”试图从预测结果中猜出受保护属性，通过对抗训练,使主模型的预测无法被用于推断受保护属性。
后处理阶段：对训练好的模型的输出结果进行调整。
- 调整决策阈值：对不同群体使用不同的分类阈值，以达到期望的公平性指标（如机会均等）。

公平性的多义性与价值权衡：没有放之四海而皆准的公平定义。公平与性能往往存在权衡（“公平性-准确性权衡”）,强制要求完全的人口统计平等可能会降低整体预测准确率。
交叉性：一个人可能同时属于多个受保护群体（如“黑人女性”），其面临的歧视是多重且独特的，不能简单地用单一群体（黑人、女性）的公平性来保障。
动态性与长期影响：短期看似公平的指标，长期可能因反馈循环导致更严重的不公,需要评估算法的长期社会影响。
从技术问题到社会技术问题：算法公平性不仅仅是数学和工程问题，它涉及法律、伦理、社会价值观，需要跨学科合作（计算机科学家、社会科学家、法律专家、伦理学家、受影响社群代表等）共同制定规则。

算法公平性原理的核心是认识到算法并非客观中立的工具，它会继承并放大社会已有的偏见，实现公平性是一个持续的、需要多方参与的过程,它要求我们：