- 公开性:数据可公开获取。
- 挑战性:能有效区分不同算法的优劣。
- 多样性:覆盖足够多的场景和类别。
- 高质量:数据经过清洗和标注。
以下按领域分类介绍一些最重要和最常用的基准测试数据集:

计算机视觉
图像分类
- ImageNet:计算机视觉领域的“奥林匹克”,包含超过1400万张手动标注的高分辨率图像,涵盖2万多个类别,其子集 ILSVRC 推动了深度学习革命。
- CIFAR-10 / CIFAR-100:小型、经典的彩色图像分类数据集,CIFAR-10有10类6万张32x32图像;CIFAR-100有100类。
- MNIST:手写数字识别入门数据集,包含6万张训练和1万张测试的28x28灰度图。
- Fashion-MNIST:MNIST的升级版,内容为时尚单品(T恤、鞋子等),比数字更具挑战性。
目标检测与分割
- COCO:目前最主流的通用目标检测、分割、字幕生成基准,包含超过33万张图像,80个物体类别,以复杂的日常场景为主,标注密集。
- PASCAL VOC:COCO之前的主流基准,包含20个类别,任务涵盖分类、检测、分割。
- Cityscapes:专注于城市场景语义理解的数据集,包含来自50个城市的精细像素级标注(19类),用于自动驾驶研究。
- ADE20K:场景解析和分割数据集,包含超过2万张图像,覆盖150个物体和材料类别,场景多样。
人脸识别
- LFW:非受限环境下人脸识别的经典基准,包含5749人的1.3万多张网络图片。
- MegaFace / IJB-C:大规模、高难度的人脸识别与验证基准,旨在测试模型在百万级干扰项下的性能。
自然语言处理
语言理解与推理
- GLUE / SuperGLUE:通用语言理解评估基准,包含多个句子级任务(如情感分析、语义相似度、推理等),用于评估模型的通用语言理解能力,SuperGLUE是更具挑战性的升级版。
- SQuAD:斯坦福问答数据集,机器阅读理解的经典基准,模型需要根据给定的文章段落回答相关问题。
- RACE:从中学英语考试中收集的大规模阅读理解数据集,需要高级推理能力。
文本分类与情感分析
- IMDb:电影评论情感分析数据集,5万条影评,二分类(正面/负面)。
- AG News:新闻主题分类数据集,包含120万篇新闻文章,分为4个大类。
机器翻译
- WMT:机器翻译研讨会每年发布的多语言翻译基准数据集,是机器翻译领域的黄金标准。
- IWSLT:口语翻译研讨会数据集,专注于演讲、对话等口语化文本的翻译。
中文NLP
- CLUE:中文语言理解评估基准,是中文版的GLUE,包含多项中文NLP任务。
- FewCLUE:CLUE的小样本学习版本。
语音与音频
- LibriSpeech:基于LibriVox有声读物的大规模英语语音识别数据集,包含约1000小时的朗读语音。
- TIMIT:较小但经典的音素识别基准,包含美式英语各种口音的录音。
- AudioSet:谷歌发布的大规模音频事件数据集,包含超过200万个10秒音频片段,标记了632个声音事件类别。
多模态
- MSR-VTT / YouCook2:视频描述生成数据集,为视频片段生成文本描述。
- VQA:视觉问答数据集,需要模型理解图像内容并回答自然语言问题。
- ImageNet-C / ImageNet-A:用于测试模型鲁棒性的基准,C包含各种常见腐蚀(如噪声、模糊),A包含自然对抗样本。
强化学习
- OpenAI Gym / Gymnasium:不是数据集,而是一个工具包,提供了一系列标准化的环境(如Atari游戏、控制任务MuJoCo),用于开发和比较强化学习算法。
- DeepMind Control Suite:一组连续控制任务,基于MuJoCo物理引擎。
图机器学习
- Cora / Citeseer / PubMed:经典的引文网络数据集,节点为论文,边为引用关系,任务常为节点分类。
- OGB:开放图基准,包含大规模、多样化的真实世界图数据集,用于节点、链接、图级别任务的评估。
生成式AI(新兴且重要)
- MMLU:大规模多任务语言理解,包含57个科目的多项选择题,用于评估模型的世界知识和问题解决能力。
- HELM:语言模型整体评估,一个旨在全面、系统评估语言模型的框架。
- HellaSwag / TruthfulQA:专门用于评估模型的常识推理能力和真实性,防止“一本正经地胡说八道”。
- HumanEval:评估代码生成能力的数据集,要求模型根据函数签名和文档字符串生成正确的代码。
如何选择基准数据集?
- 明确任务:首先要确定你的任务是图像分类、机器翻译还是对话生成。
- 参考领域文献:查看该领域顶级论文(如CVPR, ACL, NeurIPS)中使用最多的数据集。
- 考虑规模和复杂度:从MNIST、CIFAR等入门数据集开始,再挑战ImageNet、COCO等。
- 关注权威榜单:许多数据集有公开的排行榜(Leaderboard),如Papers with Code网站集成了各数据集的SOTA结果,是很好的参考。
基准数据集是AI发展的基石和方向标,选择正确的基准进行测试和比较,对于客观评估算法性能、推动技术进步至关重要。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。