一、核心评测维度

星博讯 AI基础认知 2026-04-09 33

能力与性能
- 核心任务指标：根据任务类型选择。
  - 分类任务：准确率、精确率、召回率、F1分数、AUC-ROC。
  - 生成任务：BLEU、ROUGE、METEOR（用于翻译/、困惑度、人工评估（流畅度、相关性、创造性）。
  - 回归任务：均方误差、平均绝对误差、R²分数。
  - 强化学习：累积奖励、学习曲线、成功率。
- 效率指标：推理速度（吞吐量、延迟）、模型大小、内存占用、能耗,这些关乎模型能否实际部署。
鲁棒性与可靠性
- 对抗鲁棒性：在输入中加入微小扰动（对抗攻击）,测试模型是否仍然能正确判断。
- 分布外泛化：在训练数据分布之外的、未见过的数据上测试性能（不同光照下的图像、不同领域或方言的文本）。
- 不确定性校准：模型对其预测的置信度是否与其实质正确率匹配（一个说“90%确信”的预测，是否在100次里对了90次）。
公平性与偏见
- 群体公平性指标：检查模型在不同人口统计学子群体（如性别、种族、年龄）上的性能差异，常用差异均等、机会均等等统计指标。
- 偏见探测：通过特定测试集或模板句（如“The [职业] went to work”中填入不同性别代词）探测模型是否存在刻板印象关联。
安全性
- 生成：测试模型是否会产生暴力、仇恨、歧视性言论,或提供危险指导。
- 越狱与提示攻击：尝试用特殊指令或上下文让模型绕过安全限制,执行其本不应执行的任务。
- 隐私与记忆：检查模型是否会泄露其训练数据中的敏感个人信息（成员推断攻击）。
可解释性与透明度
- 事后解释：使用LIME、SHAP等工具解释单个预测的依据。
- 归因分析：对于图像或文本,可视化哪些部分对决策贡献最大。
- 人类对齐：模型的决策逻辑和理由是否能被人类理解与认可。

主要评测方法与流程

标准数据集与基准测试
- 方法：在公开的、公认的测试集上运行模型,计算标准指标。
- 例子：ImageNet（图像分类）、GLUE/SuperGLUE（自然语言理解）、MMLU（大规模多任务语言理解）、HELM（全任务模型评估）。
- 优点：标准化,易于横向比较。
- 缺点：可能存在数据集过拟合,不能完全反映真实场景复杂性。
人工评估
- 方法：由人类评估者对模型输出进行评分，通常用于生成任务（如对话、创作）或评估主观质量（如有用性、无害性、拟人度）。
- 形式：众包平台、专家评审、A/B测试。
- 优点：黄金标准,尤其适合评估难以量化的方面。
- 缺点：成本高、耗时长、可能存在主观性。
动态/交互式评估
- 方法：在模拟环境或多轮对话中测试模型，评估其上下文理解、长期规划、工具使用等动态能力。
- 例子：WebArena（模拟网页操作）、API-Bank（工具调用评估）、复杂多轮对话挑战赛。
- 优点：更接近实际应用场景。
红队测试
- 方法：组建专门的“红队”，像黑客一样主动、创造性地攻击AI系统，试图找出其漏洞、偏见或安全风险。
- 优点：能发现自动化测试难以覆盖的深层、隐蔽问题。
端到端系统评测
- 方法：将AI模型置于完整的应用系统中进行评估，考量其与其他组件的交互、对整体业务指标（如用户留存、转化率、满意度）的影响。
- 优点：评估最终价值,结果最具有业务参考意义。