-
能力与性能

- 核心任务指标:根据任务类型选择。
- 分类任务:准确率、精确率、召回率、F1分数、AUC-ROC。
- 生成任务:BLEU、ROUGE、METEOR(用于翻译/、困惑度、人工评估(流畅度、相关性、创造性)。
- 回归任务:均方误差、平均绝对误差、R²分数。
- 强化学习:累积奖励、学习曲线、成功率。
- 效率指标:推理速度(吞吐量、延迟)、模型大小、内存占用、能耗,这些关乎模型能否实际部署。
- 核心任务指标:根据任务类型选择。
-
鲁棒性与可靠性
- 对抗鲁棒性:在输入中加入微小扰动(对抗攻击),测试模型是否仍然能正确判断。
- 分布外泛化:在训练数据分布之外的、未见过的数据上测试性能(不同光照下的图像、不同领域或方言的文本)。
- 不确定性校准:模型对其预测的置信度是否与其实质正确率匹配(一个说“90%确信”的预测,是否在100次里对了90次)。
-
公平性与偏见
- 群体公平性指标:检查模型在不同人口统计学子群体(如性别、种族、年龄)上的性能差异,常用差异均等、机会均等等统计指标。
- 偏见探测:通过特定测试集或模板句(如“The [职业] went to work”中填入不同性别代词)探测模型是否存在刻板印象关联。
-
安全性
- 生成:测试模型是否会产生暴力、仇恨、歧视性言论,或提供危险指导。
- 越狱与提示攻击:尝试用特殊指令或上下文让模型绕过安全限制,执行其本不应执行的任务。
- 隐私与记忆:检查模型是否会泄露其训练数据中的敏感个人信息(成员推断攻击)。
-
可解释性与透明度
- 事后解释:使用LIME、SHAP等工具解释单个预测的依据。
- 归因分析:对于图像或文本,可视化哪些部分对决策贡献最大。
- 人类对齐:模型的决策逻辑和理由是否能被人类理解与认可。
主要评测方法与流程
-
标准数据集与基准测试
- 方法:在公开的、公认的测试集上运行模型,计算标准指标。
- 例子:ImageNet(图像分类)、GLUE/SuperGLUE(自然语言理解)、MMLU(大规模多任务语言理解)、HELM(全任务模型评估)。
- 优点:标准化,易于横向比较。
- 缺点:可能存在数据集过拟合,不能完全反映真实场景复杂性。
-
人工评估
- 方法:由人类评估者对模型输出进行评分,通常用于生成任务(如对话、创作)或评估主观质量(如有用性、无害性、拟人度)。
- 形式:众包平台、专家评审、A/B测试。
- 优点:黄金标准,尤其适合评估难以量化的方面。
- 缺点:成本高、耗时长、可能存在主观性。
-
动态/交互式评估
- 方法:在模拟环境或多轮对话中测试模型,评估其上下文理解、长期规划、工具使用等动态能力。
- 例子:WebArena(模拟网页操作)、API-Bank(工具调用评估)、复杂多轮对话挑战赛。
- 优点:更接近实际应用场景。
-
红队测试
- 方法:组建专门的“红队”,像黑客一样主动、创造性地攻击AI系统,试图找出其漏洞、偏见或安全风险。
- 优点:能发现自动化测试难以覆盖的深层、隐蔽问题。
-
端到端系统评测
- 方法:将AI模型置于完整的应用系统中进行评估,考量其与其他组件的交互、对整体业务指标(如用户留存、转化率、满意度)的影响。
- 优点:评估最终价值,结果最具有业务参考意义。
通用评测流程
- 定义评测目标与范围:明确要评测什么(何种能力?针对什么场景?)以及为什么评测(研究对比、产品上线、合规审计?)。
- 选择评测维度与指标:根据目标,选取上述一个或多个维度的具体指标。
- 构建或选择评测集:使用公开基准,或构建代表真实用户和场景的测试集(确保覆盖关键用例、边角案例和潜在敏感群体)。
- 执行自动化与人工评测:运行模型,收集数据。
- 分析与报告:系统分析结果,识别强项、弱项、风险点和偏见,生成结构化的评测报告。
- 迭代与改进:将评测结果反馈给模型开发团队,用于改进模型、数据或算法,并持续进行回归测试。
重要原则与挑战
- 综合性:避免“锤子找钉子”,不能只用一个指标(如准确率)评价模型,需多维度考量。
- 可重复性:评测过程、数据和环境应可复现,以确保结果可信。
- 代表性:测试数据应尽可能反映真实世界的分布和复杂性。
- 动态演进:AI能力在快速发展,评测方法(尤其是针对大模型和Agent)也必须不断演进,从静态走向动态,从单任务走向复杂交互。
- 对齐人类价值观:最根本的挑战是如何定义和度量模型与人类价值观、伦理准则的“对齐”程度,这本身就是一个开放的研究问题。
现代AI评测已从早期的单一任务性能评估,演变为涵盖能力、鲁棒、安全、公平、价值对齐的系统工程,一个负责任的AI系统发布,需要结合自动化基准测试、人工评估、红队测试和端到端验证 等多种手段,形成闭环的评测-改进流程。
对于像GPT-4、Claude等大语言模型,业界正越来越重视在复杂推理、长上下文、工具使用、多模态交互以及安全性、诚实性等方面的评测框架构建。
标签: Evaluation Criteria Core Dimensions
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。