模型评测 · 方法论 · 阅读指南

读懂大模型榜单
一张 能力地图 的使用说明

为什么一个模型不能只看一个分数?十二项基准测试,各自照亮模型能力的不同侧面——学会读懂它们,才能看清一个模型真正擅长什么。

每隔几周,就会有一张新的"模型表现"对比图在技术圈刷屏。横轴排开六七个模型,纵轴是一根根高低不一的柱子,每根柱子顶上压着一个精确到小数点后一位的数字。看上去清清楚楚——谁高谁低,一目了然。

下面这张图就是一个典型例子——也是本文要带你读懂的对象。但如果你真的盯着它看上几分钟,问题就来了:Terminal-Bench、SWE-bench Pro、MCP-Atlas、HLE、Apex……这些名字到底在考什么?为什么一个模型在这张榜上遥遥领先,换一张榜却被反超?哪些分数真正关系到你要做的事,哪些只是"看上去很厉害"?

这篇文章不打算告诉你"哪个模型最好"——那个答案随版本迭代每月都在变。我们想做的是更耐用的一件事:把这些榜单拆开,告诉你每一项到底在丈量模型的哪一块肌肉。读完之后,下次再看到这类对比图,你能像读体检报告一样,分清哪项是肝功能、哪项是视力、哪项又只是身高体重。

本文讨论的对象 · The chart in question
多个大模型在十二项基准测试上的表现对比柱状图
图|一张典型的"模型表现"对比。横向六个模型,纵向十二项基准测试(Terminal-Bench、SWE-bench Pro、MCP-Atlas、HLE、Apex 等)。下文将逐项拆解,说明每一格到底在丈量什么。
注:图中模型名称、版本号与数值仅作示例,本文重点在于解读各项基准的考核维度,而非评判具体产品。

01为什么是"一堆"榜单,而不是一个分数

The case against a single number

人们总希望有一个"智商分",一个数字就能给模型排座次。但大模型的能力不是单一维度的。一个能写出优雅诗句的模型,未必能在一个真实代码仓库里改对一个跨文件的 bug;一个数学推理满分的模型,可能完全不会调用外部工具去查一份实时文档。

这就是为什么严肃的评测会把能力切成若干正交的维度,每个维度配一套或几套专门的基准测试(benchmark)。一张完整的对比图,本质上是一份多维度的能力画像——它的价值恰恰在于"不统一":让你看到同一个模型在不同任务上的参差

A benchmark is not a verdict. It is a question — and different benchmarks ask different questions.

榜单不是判决书,而是一道考题。不同的榜单,问的是不同的问题。

把上面那张对比图里的十二项基准归一归类,其实落在四个大方向上。理解了这四个方向,你就掌握了读图的"图例":

维度 A · 编程

代码与软件工程Coding & Software Engineering

从"写对一个函数"到"在真实项目里跨多个文件完成一次需求"。这是当下竞争最激烈、也最贴近生产力的战场。

Terminal-Bench · SWE-bench Pro · SWE-bench Multilingual · NL2Repo
维度 B · 智能体

工具调用与智能体Tool Use & Agentic

模型能否像一个真正的"打工人"一样,调用工具、连接系统、在真实环境里把一件多步骤的事办成。

MCP-Atlas · MCP-Mark · ClawEval · CoWorkBench
维度 C · 知识

知识与推理Knowledge & Reasoning

硬核学科知识、研究生级别的专业问题、人类智力的天花板。考的是"懂得多深"和"想得多对"。

HLE · Apex · SuperGPQA
维度 D · 可控

指令遵循与可控性Instruction Following

给它一堆约束条件,它能不能精确照办——这决定了模型在工程里"听不听话、好不好用"。

IFBench
为什么要分维度

一个模型可能在知识推理上接近满分,却在智能体任务上力不从心;反之亦然。如果只看一个综合分,这种关键的"能力错位"会被抹平。分维度看榜,本质上是拒绝用一个平均数掩盖真实的强弱分布

02逐项拆解:每一根柱子在量什么

A field guide to twelve benchmarks

下面把上方对比图里出现的十二项基准逐一拆开。每一项后面,我都标注了它主要照亮模型的哪块能力,以及看它的分数时要特别注意什么。你可以对照着上面的图一起看。

▍ 维度 A:代码与软件工程

01Coding · Terminal

Terminal-Bench 2.0 智能体终端编程

把模型扔进一个真实的命令行环境里,让它像工程师一样敲命令、装依赖、跑脚本、读报错,独立完成一项任务。它考的不是"会不会写代码",而是会不会在一个真实的、会反馈错误的操作系统环境里把事情做完

注意:这是典型的"环境驱动"任务。分数高,意味着模型擅长在 多轮试错 中自我纠偏——这正是当下智能体编程的核心能力。

02Coding · Real Repo

SWE-bench Pro 真实软件工程

它的题目来自真实开源项目里的 issue 和 pull request,要求模型在一个完整代码仓库中提交补丁,然后用人类写好的隐藏测试用例来判定是否真的修对了。Pro 版本特意选用模型训练时大概率没见过的代码库,专治"背答案"——它衡量的是真正的泛化能力,而非记忆。

注意:这是最贴近真实开发的硬榜之一,分数普遍偏低很正常。任务常需跨多个文件、上百行改动,考验的是长程推理与工程协调,不是写单个片段。

03Coding · Multilingual

SWE-bench Multilingual 多语言软件工程

同样是真实仓库修 bug,但把战场从"以 Python 为主"扩展到多种编程语言。它回答一个很实际的问题:模型的工程能力是只在主流语言上成立,还是能迁移到 Go、Rust、Java、TypeScript 等不同生态?

注意:如果你的技术栈不是 Python,这一项比单语言榜更有参考价值。

04Coding · Long-Horizon

NL2Repo 长程代码生成

从一段自然语言需求出发,生成整个代码仓库——不是一个函数,是结构、模块、文件组织的全套。它考的是模型把模糊需求"翻译"成完整工程骨架的能力,是长程规划与代码生成的结合。

注意:这类任务整体难度高、分数偏低(图中即便最强模型也不到 50 分),说明"从零造一个能跑的项目"仍是行业未攻克的难点。

▍ 维度 B:工具调用与智能体

05Agent · MCP

MCP-Atlas / MCP-Mark 真实工具协议调用

MCP(Model Context Protocol,模型上下文协议)是模型连接外部工具与数据源的标准接口。这两项基准考的是:给模型接上一堆真实工具,它能否正确地选择工具、传对参数、串联多步调用,最终拿到正确结果。Atlas 与 Mark 侧重略有不同,但都直指"工具使用的准确性与可靠性"。

注意:这是"模型能否当智能体"的地基。一个工具调用错一步,整条任务链就崩——所以这里的分数差距,往往比聊天能力的差距更能区分模型的工程实用性

06Agent · Real-World

ClawEval 真实世界智能体

把模型放进更接近真实工作流的端到端场景里,评估它作为一个自主智能体完成现实任务的综合表现。相比单点的工具调用,它更看重整体的任务完成度与稳健性。

注意:这类"真实世界"榜单的价值在于综合——它把规划、调用、纠错、收尾揉在一起考,更接近你实际部署时会遇到的情况。

07Agent · Cowork

CoWorkBench 协作型办公智能体

面向"知识工作者助手"场景:处理文档、跨应用协作、完成办公流程里的多步任务。它衡量模型能否胜任一个真实的"数字同事"角色,而不只是回答问题。

注意:如果你的关注点是"把 AI 接进日常办公/业务流程",这一项比纯编程榜更对口。

▍ 维度 C:知识与推理

08Knowledge · Frontier

HLE Humanity's Last Exam · 人类的最后考试

名字就很有野心。它汇集了跨学科、极高难度、连领域专家都需要认真作答的问题,刻意把题目设计在当前模型能力的天花板附近。它衡量的不是"懂常识",而是"在人类知识的最深处还能走多远"。

注意:分数普遍很低(图中多在 30~40 分区间)是设计使然——这是一把专门用来测量上限、拉开顶尖模型差距的尺子。

09Reasoning · Math

Apex 数学推理

纯粹的数学推理能力考核,强调多步严谨推导而非套公式。数学是检验"真推理"还是"模式匹配"的试金石——因为它几乎无法靠记忆蒙混过关。

注意:这一项上模型之间往往拉开巨大差距(图中从个位数到四十多分都有)。数学榜的剧烈分化,最能暴露一个模型推理能力的真实深浅。

10Knowledge · Graduate

SuperGPQA 研究生级专业知识

覆盖众多学科的研究生级别问题,门槛高于一般常识问答。它考的是模型在专业纵深上的知识储备与运用——是"博士生水平的问答",不是"百科词条复述"。

注意:这类榜分数通常较高且模型间差距较小,说明顶尖模型在"广博专业知识"上已趋于成熟,胜负手更多落在前面那些更难的维度。

▍ 维度 D:指令遵循与可控性

11Control · Instruction

IFBench 指令遵循

给模型一组明确的、有时相互交织的约束(格式、长度、必须包含/排除的内容等),看它能否分毫不差地照办。这一项常被低估,却极其重要——它决定了模型在真实工程里"好不好驾驭"。

注意:一个再聪明的模型,如果不听指令,在自动化流水线里就是"不可控的变量"。可控性是把模型变成可靠组件的前提

03一张速查表:看榜时各取所需

Which benchmark matters for you

不同的人,关心的维度天差地别。下面这张表帮你快速定位:你的目标,对应该重点盯哪几项

你想用模型做什么重点关注的榜单它在回答的问题
接入 AI 编程助手 / 自动改 bugSWE-bench Pro · Terminal-Bench能不能在真实代码环境里独立干完活
构建智能体 / 自动化工作流MCP-Atlas · ClawEval · CoWorkBench会不会用工具、能不能办成多步任务
用于科研 / 高难度专业问答HLE · SuperGPQA · Apex知识有多深、推理有多准
嵌入生产流水线 / 要求稳定输出IFBench听不听话、可不可控
非 Python 技术栈开发SWE-bench Multilingual工程能力能否跨语言迁移

04读榜的四条"避坑"原则

How to read without being fooled

榜单很有用,但也很容易误导人。掌握下面四条,你看图的姿势会专业很多。

先看维度,再看名次

不要被"谁家柱子最高"牵着走。先问自己:这一项在考什么?它和我要做的事相关吗?一个模型在 SuperGPQA 上领先,对你做智能体开发可能毫无意义。相关性,永远优先于名次。

留意分数的"绝对高度"

同样是第一名,在 SuperGPQA 上拿 73 分和在 NL2Repo 上拿 47 分,含义完全不同。分数普遍偏低的榜,说明这是整个行业都没攻克的难题——这里的领先,才是真本事;分数普遍很高的榜,往往已接近饱和,领先优势的"水分"更大。

警惕"分数游戏"与脚手架差异

很多智能体类榜单,成绩同时取决于模型本身和外面那层"脚手架"(agent 框架、提示工程、工具配置)。同一个模型换个框架,分数可能差出十几分。所以跨来源比较时要格外小心,优先看采用统一评测协议的榜单。同时,一项基准被广泛使用后,也存在被针对性优化("刷榜")的风险。

看"能力分布"而非"单点峰值"

真正全面的模型,是在所有维度上都不掉队,而不是在某一项上一枝独秀、其余惨不忍睹。横着扫一遍十二项——有没有哪个维度明显塌陷?那个塌陷处,往往就是它实际部署时最先暴露的短板。

最后的提醒

所有榜单都是现实任务的简化代理。它能告诉你模型在"考试"里的表现,但你的真实场景——你的代码库、你的业务流程、你的用户——永远是独一无二的考卷。

正如严肃评测机构反复强调的那句话:衡量一个模型对你是否有用的唯一真正标准,是它在你自己的任务上跑出来的结果。榜单帮你缩小选择范围,但替代不了一次真刀真枪的小规模试用。

05结语:把榜单当地图,而不是终点

A map, not a destination

回到文章开头那张对比图。现在再回头看它,你应该不再只看到"谁高谁低",而是看到一张多维度的能力地形图:编程的山脊、智能体的峡谷、知识推理的高原、可控性的护城河。每一根柱子,都是地图上的一处地标。

大模型能力的全貌,从来不在某一个数字里,而在这些维度彼此参差、互相补全的关系之中。学会读这张地图,你就拥有了一种穿透营销话术的能力——下一次,无论是哪家发布了"全面领先"的新模型,你都能平静地拆开它的成绩单,问出那个最关键的问题:

Leading at what, exactly — and does it matter for what I need to do?

究竟领先在"什么"上——而这件事,和我要做的事有关系吗?

能问出这个问题,你就已经从一个"看分数的人",变成了一个"读能力的人"。这,才是这些榜单存在的真正意义。