引言

随着大型语言模型(LLMs)在自然语言处理和多模态任务中的应用日益广泛,评估这些模型的能力变得至关重要。本报告分析了用户提供的评估标准列表,涵盖了知识理解、推理、编码、多模态任务、伦理偏见等多个领域。我们将探讨每个基准的重点、特色和可信度,以提供全面的洞察。

分类与详细分析
1. 一般知识和理解
  • MMLU(Massive Multitask Language Understanding):这是一个广泛使用的基准,涵盖57个学科,包括STEM、人文和社会科学,测试模型在零样本和少样本设置下的知识和问题解决能力。研究表明,它是评估模型广度知识的黄金标准。
  • MMLU-Redux:这是 MMLU 的改进版本,通过手动重新标注减少错误,估计原始 MMLU 中约6.49%的题目存在问题。
  • MMLU-Pro:相比 MMLU,MMLU-Pro 增加了更具挑战性的推理问题,并将答案选项从4个扩展到10个,显著提高难度。
  • C-EvalCMMLU:这些基准专注于中文语境,测试模型在中文考试和文化相关任务中的表现,体现了语言和文化特异性的重要性。
2. 推理和问题解决
  • AIME 2024:基于美国数学邀请赛(AIME)的问题,测试高级数学推理能力,适合高中生,涉及复杂的数学问题。
  • MATH-500:包含500个数学问题,测试计算和推理能力,部分问题来自竞赛数据集。
  • GSM8K:包含8500个中小学数学问题,要求多步推理,适合测试基础数学能力。
  • CMathMGSM:可能为中文数学基准或更广泛的数学推理任务,具体信息有限,但推测与数学竞赛相关。
3. 编码和编程
  • Codeforces:利用 Codeforces 平台的问题,测试竞争性编程能力,涉及算法和实现。
  • HumanEval:包含164个编程问题,评估从文档字符串生成 Python 代码的能力,使用 pass@k 指标。
  • MBPP(Massive Python Programming Benchmark):约1000个 Python 编程问题,适合初级程序员,覆盖基础编程和标准库功能。
  • LiveCodeBench:实时编码基准,测试生成功能代码的能力,关注污染-free 评估。
  • CRUXEval-I 和 CRUXEval-O:代码推理、理解和执行评估,分别测试输入预测和输出预测。
4. 语言理解和领悟
  • RACE-High:RACE 数据集的高中水平部分,测试阅读理解能力,包含近10万问题。
  • TriviaQA:包含95K 琐碎问题-答案对,测试一般知识问答能力。
  • NaturalQuestions:基于真实 Google 搜索查询的问答数据集,测试从维基百科页面回答问题。
  • AGIEval:人类中心基准,基于标准化考试如 SAT 和高考,测试模型在认知任务中的表现。
5. 多模态任务
  • ChartQA:测试基于图表的问题回答,涉及视觉和逻辑推理,包含9.6K 人类编写问题。
  • DocVQA:文档图像问答基准,包含5万问题,测试理解文档布局和文本。
  • InfoVQA:信息图问答,测试理解信息图的文本和图形元素。
  • Document Intelligence:泛指文档图像处理任务,可能包括 DocVQA 和其他相关基准。
  • TextVQA:基于图像中文本的问答,测试读取和推理能力。
  • OCR Bench:光学字符识别基准,评估从图像中提取文本的准确性。
  • Object visual presence verification:可能涉及对象检测基准,如 COCO,验证图像中对象存在。
  • POPE:可能为“Perceptual Object Processing Evaluation”,测试对象识别。
  • Multi-image perception:测试多图像理解,如 MIRB,涉及比较和推理。
  • BLINK:视觉感知基准,测试多模态 LLM 在深度估计等任务上的表现。
  • Video MME:视频多模态评估,涵盖短至长视频,测试多模态输入处理。
  • MMMU:多任务多模态理解基准,涉及多种媒体类型。
6. 伦理和偏见
  • RealToxicityPrompts:测试模型生成毒性内容的倾向。
  • CrowS-Pairs:评估语言模型的偏见,涉及社会刻板印象。
  • BBQ Ambig and Disambig:可能测试处理模糊和非模糊问题的能力。
  • Winogender:测试性别偏见。
  • TruthfulQA:测试模型的真实性,评估生成虚假信息的倾向。
  • Winobias:偏见测试数据集。
  • Toxigen:毒性生成测试。
7. 其他特定任务
  • GPQA Diamond:一般目的问答基准,可能有特定难度级别。
  • SimpleQA:简单问答基准,测试基础语言理解。
  • FRAMES:可能涉及框架语义或特定任务,信息有限。
  • LongBench v2:长文本处理基准,测试处理长上下文的能力。
  • Aider-Edit 和 Aider-Polyglot:可能涉及编辑或多语言任务,具体信息有限。
  • CNMO 2024:中文数学竞赛基准,测试数学推理。
  • C-SimpleQA:中文简单问答。
  • Open-rewrite eval:文本重写评估。
  • TLDR9+:可能为摘要或简洁描述任务。
  • IFC Eval:特定任务或领域,信息有限。
  • Nexus:可能为一般 AI 基准。
  • infiniteBench/En.QA and En.MC:英语问答和选择题测试。
  • NIH/Multi-needle:可能为医疗相关任务,涉及多种数据类型。
重点、特色和可信度分析
重点
  • 知识广度:MMLU 和 AGIEval 测试模型在广泛学科中的表现。
  • 推理深度:AIME 2024 和 MATH-500 强调高级数学推理。
  • 编码能力:Codeforces 和 HumanEval 评估竞争性编程和代码生成。
  • 多模态理解:Video MME 和 BLINK 测试视频和多图像处理能力。
  • 伦理考量:RealToxicityPrompts 和 TruthfulQA 确保模型的伦理和真实性。
特色
  • 语言和文化多样性:C-Eval 和 CMMLU 提供中文语境评估。
  • 动态更新:LiveCodeBench 和 Video MME 持续收集新问题,防止数据污染。
  • 多模态集成:ChartQA 和 DocVQA 结合视觉和文本信息,测试复杂推理。
可信度
  • 这些基准大多由顶尖研究机构和公司开发,如 Google、Microsoft 和 OpenAI,发布在顶级会议如 ACL 和 NeurIPS,增强了可信度。
  • 例如,MMLU 有广泛引用,反映其社区接受度。
  • 然而,某些基准如 MMLU-Redux 指出原始 MMLU 存在错误,需持续改进。
总结与未来方向

本报告分析了多个大模型评估标准,揭示了其在测试模型能力方面的多样性和复杂性。未来,需关注多模态和伦理评估的进一步发展,以确保模型在真实世界中的鲁棒性和公平性。

Logo

科技之力与好奇之心,共建有温度的智能世界

更多推荐