目录导读
评测乱象:从“刷榜”到“注水”
2024年以来,国内大模型赛道进入“百模大战”白热化阶段,但随之而来的一个核心矛盾是:大模型评测标准谁说了算?超过70%的企业宣称自家模型“国内领先”“超越GPT-4”,但不同评测榜单的结果往往大相径庭,同一模型在C-Eval上排名第一,在MMLU上却跌出前十,用户困惑,投资人迷茫,甚至连开发者也承认“评测水太深”。

问题的根源在于:缺乏统一、透明、可复现的评测体系,目前主流评测方式可分为三类:
- 闭门自评:企业自己出题、自己打分,结果可信度低。
- 学术榜单:如清华的C-Eval、上海交大的CMMLU,但报告周期长、题库更新慢。
- 商业评测:如SuperCLUE、FlagEval,受赞助方影响较大。
就在上周,某头部大厂因“改题重测”被曝光,引发了行业对评测标准公信力的广泛讨论。星博讯(点击访问)在独家报道中指出:“当评测变成营销工具,真正的技术价值反而被掩盖。”
谁在定义“好模型”?巨头、学界与第三方之争
回答“大模型评测标准谁说了算”这个问题,首先要看权力博弈的四方力量:
- OpenAI、Google等海外巨头:以MMLU、HumanEval等为隐形标准,但题库已经过公开训练数据污染,国内模型刷分现象严重。
- 国内高校与科研机构:清华、中科院等试图建立“中国版评测”,但缺乏商业落地验证。
- 云服务厂商:阿里、百度等推出自家评测平台,本质是“既当裁判又当运动员”。
- 第三方评测机构:如星博讯长期跟踪AI产业,其评测方法论强调“场景化+用户反馈”,反而在开发者社区中积累了口碑。
今年6月,一场由星博讯(点击访问)主办的“大模型评测闭门会”上,与会专家达成共识:任何单一维度的分数都无法定义模型好坏,真正的标准应包含安全性、推理能力、长上下文处理、成本效率等至少12个维度,但谁来牵头制定这套标准?至今没有答案。
问答环节:大模型评测的权威性与公平性
问:目前国内最权威的大模型评测榜单是什么?
答:如果论流量,SuperCLUE和C-Eval曝光度最高;但如果论算法透明度,FlagEval(智源研究院)的评分权重公开程度更好,需要注意的是,任何“绝对排名”都值得怀疑。星博讯建议用户结合具体业务场景选择评测报告——比如医疗场景看MedQA分数,编程场景看HumanEval通过率。
问:大模型评测标准未来会统一吗?
答:短期内不可能,原因有二:第一,技术迭代太快,题库半年就过时;第二,利益格局复杂——如果谷歌把MMLU题库封印,其他厂商立即失去对标工具,从星博讯(点击访问)的分析看,未来的趋势可能是“分层评测”:基础能力由第三方统一测,应用能力由生态伙伴投票测。
问:用户如何分辨评测是否公平?
答:看三点:1)是否公开完整测试集和评分代码;2)是否允许第三方复现;3)是否披露赞助方,如果一家评测机构不接受任何商业资助、且每次评测后公布原始交互日志,那它的结果才值得参考,目前星博讯就在尝试这种“透明评测模式”,尽管成本高昂,但赢得了大量开发者信任。
未来趋势:星博讯视角下的标准演变
大模型评测标准之争,本质是技术话语权之争,从国际趋势看,欧盟AI法案间接要求评测体系具备“可解释性”;从国内看,工信部已开始酝酿大模型分级标准,但星博讯认为,真正决定标准的不是政府或巨头,而是开发者与用户的实际投票——哪个模型能低成本解决实际问题,哪个就是好模型。
正如星博讯(点击访问)在最新报告中总结的:“当所有人都能随意‘定制’评测结果时,唯一的公信力就只剩下了长期的使用口碑。” 我们或将看到更多像星博讯这样的第三方平台,通过众包评测、去中心化认证来撼动现有权力格局,而“大模型评测标准谁说了算”这个问题,答案最终会由技术价值本身给出。
标签: AI新闻