LLM评估

大语言模型(LLM)前沿评测指标详解

在评价最新的大语言模型(如 Gemma-4)时,评测基准(Benchmarks)早已从简单的知识问答转向了极为苛刻的逻辑推理、复杂智能体交互以及多模态全能型测试。

基于当前的各项权威 Benchmark 榜单数据,以下是各个常见/前沿指标的详细介绍、含义及其计算和评估方式:

1. 综合能力与语言理解 (Comprehensive & Language Understanding)

MMLU Pro

  • 全称:Massive Multitask Language Understanding Pro (专业版大规模多任务语言理解)
  • 含义:MMLU 的进阶增强版,涵盖 STEM(理工科)、人文、社科等数十个学科。由于原版 MMLU 对最前沿模型已经出现“分数饱和”,Pro 版将选项从 4 个扩增至 10 个,并移除了较简单的题目,更侧重复杂的推理计算,极大降低了蒙对的可能性。
  • 计算方式:选择题的准确率(Accuracy),越高越好。

BigBench Extra Hard

  • 全称:BIG-bench Hardest Subset (超高难度综合评测子集)
  • 含义:从由谷歌主导的 BIG-bench 评测体系中提取的最困难的任务集。这些任务往往需要多步逻辑推导、字符串操作或极强的常识理解,是专门用来测试大语言模型的“涌现能力”(Emergent Abilities)的界限。
  • 计算方式:子任务的综合准确率或指定多任务分数的平均。

MMMLU

  • 全称:Multilingual MMLU (多语言 MMLU)
  • 含义:评估模型在非英语语言环境下的知识广度和推理能力。这要求模型不仅拥有各领域专业知识,还要克服语言隔阂,能够准确理解德语、法语、中文甚至小语种的问题。
  • 计算方式:多种语言选择题的平均准确率。

2. 数学与深度推理 (Mathematics & Reasoning)

AIME 2026 no tools

  • 全称:American Invitational Mathematics Examination (美国数学邀请赛)
  • 含义:AIME 是选拔国际奥林匹克数学竞赛(IMO)美国国家队的高难度比赛。no tools 指的是在不使用外部代码执行器、计算器的纯文本情况下进行解答,极度考验模型本身的纯数学符号推导能力和思维链(Chain of Thought)。
  • 计算方式:要求模型输出特定格式的最终数值答案(Exact Match),并计算正确解题比例。
  • 全称:Humanity’s Last Exam (人类的最后考试)
  • 含义:由大型科研机构汇编的防作弊、防记忆的高端学术考试,涵盖数学分析、理论物理、哲学等领域。其难度被设计成即便人类专家也需要深思熟虑才能作答。其目的是区分极其顶尖的推理模型和普通模型。
    • no tools:不使用网络搜索独立思考。
    • with search:允许模型作为智能体调用网络搜索引擎并浏览网页资料。
  • 计算方式:准确率评分。因为极其困难,当前最强模型的得分很多也只能达到 20%-30% 左右。

3. 编程与代码逻辑 (Coding & Development)

LiveCodeBench v6

  • 全称:LiveCodeBench (实时动态代码基准)
  • 含义:由于代码生成模型很容易在预训练阶段就“背熟”以往的题目,LiveCodeBench 通过持续抓取最新出炉的 LeetCode、AtCoder 和 Codeforces 的算法题,确保评测题是模型绝对没有见过的**“新题”**,真实反映模型的“零样本代码生成”能力。
  • 计算方式:通过率(Pass@1),即模型直接生成代码并通过全部隐藏测试用例的能力。

Codeforces ELO

  • 全称:Codeforces 竞技编程排位系统
  • 含义:让大模型直接参与人类的 Codeforces 在线算法竞赛,根据解答速度、通过率和题目难度来获取类似国际象棋/电竞中的隐藏分(ELO Rating)。
  • 参考对照:2150 分以上的 ELO 相当于人类中的 Master (大师) 段位,能够秒杀大多数普通程序员。
  • 计算方式:基于天梯系统排位分,分数越高越强。

4. 高级知识与智能体 (Advanced Knowledge & Agentic Abilities)

GPQA Diamond

  • 全称:Google-Proof Q&A (防谷歌搜索问答) - Diamond 难度集
  • 含义:包含了大量极其困难的博士级前沿科学(物理、化学、生物)题目。这被称为“防谷歌”,因为题目刁钻且极其专业,即便专家拿着谷歌去搜,也需要消耗大量时间才能拼凑出答案。
  • 计算方式:选择题的准确率。

Tau2 (τ²-bench)

  • 全称:τ²-Bench (工具与双向交互智能体基准)
  • 含义:这是一个考验极具现实意义的智能体基准。在“双元控制(Dual-Control)”的环境中,模型不仅仅是回答死问题,而是要承担起“客服 / 专家引导员”的角色,边调用特定的 API 系统工具,边指导具有特定意图的模拟人类用户完成复杂流程(如电信维保、退货指引)。
  • 计算方式:通常考察多个对话回合的成功完成率及其策略最优性。

5. 多模态:视觉能力 (Vision)

MMMU Pro

  • 全称:Massive Multi-discipline Multimodal Understanding Pro (大规模多学科多模态理解专业版)
  • 含义:评估模型读图解析、多模态综合推理的业界标杆。涵盖了大学水平的会计表、心电图、物理几何、化学分子式乃至建筑学图等 30 个学科。Pro 版专门滤去了无难度题目,且可能伴随选项变异,进一步防作弊。
  • 计算方式:看图选择题的准确率。

OmniDocBench 1.5

  • 全称:跨模态综合文档解析基准
  • 含义:用来考察模型从布局复杂的文档图像(比如 PDF扫描件里含有双行排版、重重嵌套的表格、水印、文字说明相杂糅)中重新结构化并完整提取信息的能力。
  • 计算方式:通常使用 AED (Average Edit Distance,平均编辑距离)。这是一项越低越好 (lower is better) 的指标,数值越小代表模型生成的结构化文本跟原始文档的差距越小。

MATH-Vision

  • 含义:带有复杂图形(如抛物线、微积分图像、复杂三维几何体)的高级数学试题基准。模型必须看懂图形、正确提取图形中的变量,并进行数学运算。
  • 计算方式:答案匹配准确率。

MedXPertQA MM

  • 全称:Medical Expert QA Multi-Modal (医学专家多模态问答)
  • 含义:医疗垂直细分赛道极难的考试,要求大语言模型能看懂 X 光、CT、核磁共振扫描图和病理切片,并结合晦涩的专业知识给出病理诊断建议。
  • 计算方式:医疗图像问答的准确率。

6. 多模态:音频能力 (Audio)

CoVoST

  • 全称:Common Voice Speech Translation Benchmark (通用语料语音翻译基准)
  • 含义:专门用来测试端到端的大模型音频能力,考察其能否直接识别一种语言的口语音频并精准翻译为目标语言文本。
  • 计算方式:通常使用 BLEU 评分系统测算翻译质量,分数越高越好。

FLEURS

  • 全称:Few-shot Learning Evaluation of Universal Representations of Speech
  • 含义:覆盖了全球数十种乃至上百种语言的通用语音识别与语音理解基准。
  • 计算方式:主流使用 WER (Word Error Rate,词错误率)。这同样是一项越低越好(lower is better) 的指标,数值代表识别出的错误词汇所占的比率,分数越小说明听力系统越精准。

7. 长上下文处理长度与记忆 (Long Context)

MRCR v2 8 needle 128k

  • 全称:Multi-Round Coreference Resolution v2 (第二代多轮指代消解测试)
  • 含义:这是“大海捞针”测试(Needle in a Haystack)的究极进化版。普通的捞针是让模型在乱文中找出一句藏在背后的信息(1 needle);而该指标(8 needle)要求在处理极其庞大的上下文内容(128k 词元,相当于一本长篇小说)的过程中,有 8 条交织复杂的条件/细节被藏在多轮混乱的上下文对话中,模型不仅需要全部找出,并且还要消除歧义并关联起来。这极其考验模型是否对极长文本有着真正的深层注意力检索能力。
  • 计算方式:召回与精准度评价计算得分综合准确率。