APEX-Agents:长期专业任务的AI代理能力测试
APEX-Agents(AI Productivity Index for Agents)是由Mercor于2026年1月推出的首个在真实、长期专业工作环境中评估AI代理的基准。该基准专注于测试AI代理在投资银行、管理咨询和企业法等高价值专业服务领域的跨应用、长视野任务执行能力。
核心定位与适用场景
APEX-Agents的核心定位是经济上有价值的AI代理工作评估。与现有基准测试孤立提示或窄技能不同,APEX-Agents:
- 测试跨应用任务,需要导航多个工作流
- 模拟凌乱、不完整的工作场所上下文,分布在文档、聊天线程、文件中
- 衡量客户就绪输出质量,能够证明专业费用合理性
- 任务需要数小时到数天供专业人员完成
适用场景包括:
- 专业服务自动化:投资银行、咨询、法律等高价值工作
- 企业级任务执行:模拟真实企业环境中的复杂工作流
- 多工具协调:测试代理在Docs、表格、PDF、电子邮件等工具间切换的能力
- 长期规划:评估模型在数小时跨度上的任务跟踪和推理能力
评测方法论
四步流程
| 步骤 | 描述 |
|---|---|
| 1. 调研(Surveys) | 调研高盛、麦肯锡、Cravath等数百名专家,了解他们如何花费时间 |
| 2. 场景(Scenarios) | Mercor专家(VP、MD、5-10年经验的管理者)在Google Workspace中创建33个真实项目场景 |
| 3. 任务创建(Task Creation) | 专家定义具体任务,包含1-10个通过/失败标准,定义"客户就绪"工作 |
| 4. 评估(Evaluation) | 使用Archipelago基础设施部署代理系统性地测量任务完成 |
合作伙伴
- Box:提供现实的企业文件系统结构(数据室)
- Harvey AI:验证法律任务反映财富500强企业顶尖律师的工作
数据集统计
| 指标 | 值 |
|---|---|
| 总任务数 | 480 |
| 总世界数 | 33 |
| 每个域任务数 | 160个(银行、咨询、法律) |
| 平均标准/任务 | 4.06 |
| 平均文件/世界 | 166 |
| 平均估计小时/任务 | 1.82 |
| 带文件输出任务 | 58(12.1%) |
领域细分
| 领域 | 世界数 | 文件/世界 | 任务数 | 标准/任务 | 小时 | 文件输出 |
|---|---|---|---|---|---|---|
| 投资银行 | 10 | 172 | 160 | 2.93 | 1.36 | 27(16.9%) |
| 企业法 | 12 | 161 | 160 | 4.57 | 2.40 | 20(12.5%) |
| 管理咨询 | 11 | 165 | 160 | 4.68 | 1.69 | 11(6.9%) |
| 基准总计 | 33 | 166 | 480 | 4.06 | 1.82 | 58(12.1%) |
最新评测结果
截至2026年2月,APEX-Agents的最新评测结果显示:
| 排名 | 模型 | 组织 | Pass@1分数 | 上下文 | 备注 |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 (High) | Anthropic | 29.8% ± 3.6% | - | 最新更新(2026年2月) |
| 2 | GPT-5.2 Codex (High) | OpenAI | 27.6% ± 3.4% | - | 编码聚焦变体 |
| 3 | Gemini 3 Flash (High) | Google DeepMind | 24.0% ± 3.3% | - | 原始论文最高分 |
| 4 | GPT-5.2 (High) | OpenAI | 23.0% ± 3.2% | - | |
| 5 | GPT-5.1 Codex (High) | OpenAI | 20.6% ± 2.9% | - | |
| 6 | Claude Opus 4.5 (High) | Anthropic | 18.4% | - | 来自原始论文 |
关键性能洞察
- Pass@1 vs Pass@8:即使有8次尝试,最佳代理仅完成~40%的任务
- 无模型准备端到端替代:显著差距仍然存在
- 性能改进:Claude Opus 4.6在仅数周内较Opus 4.5提升62%(18.4% → 29.8%)
经济影响分析
- AI代理自动化仅2.5%的远程工作——Business Day Nigeria(2026年2月)
- 不适的真相:它们还没准备好真正的知识工作——Biswaroop Palit(LinkedIn)
任务类型与场景
示例任务场景
投资银行(10个世界)
- 金融建模和估值
- 市场研究和竞争分析
- 并购尽职调查文档
- IPO备案准备
- 投资备忘录和演示
企业法(12个世界)
- 合同审查和分析
- 法律研究和备忘录起草
- 监管合规文档
- 交易尽职调查
管理咨询(11个世界)
- 战略分析和建议
- 市场进入策略
- 运营效率改进
- 客户演示文稿
工具与环境
代理在现实工作环境中导航,使用:
- Docs(Google Docs)
- 电子表格(Google Sheets)
- PDF文件
- 电子邮件
- 聊天
- 日历
评测维度
测量能力
- 长期视野规划:跨数小时工作的多步推理
- 跨应用导航:无缝切换工具
- 文件系统管理:在复杂结构中查找和使用正确文档
- 模糊性处理:处理不完整指令
- 上下文保留:在全部工作流中保持信息
- 输出质量:生成客户就绪的可交付成果
成功标准
- 二元评分标准:每个任务有1-10个通过/失败标准
- 标准级评估:平均~4个标准/任务
- 黄金输出提供:每个任务都有参考解决方案
- "客户就绪"标准:输出必须证明专业费用合理性
与其他Agent基准的关系
基准对比
| 基准 | 焦点 | 任务 | 环境 | 最高分 |
|---|---|---|---|---|
| APEX-Agents | 专业服务工作 | Google Workspace, 文件 | 29.8% | |
| Terminal-Bench | 自主终端操作 | CLI, 系统管理 | ~44-65%(因版本而异) | |
| T2-Bench (τ²-Bench) | 电信系统管理 | 电信基础设施 | ~85-90% | |
| SWE-Bench | 真实世界软件工程 | 代码库, GitHub Issue | ~30-40% |
关键差异
APEX-Agents vs 编码基准:
- 领域:商业/法律工作 vs 编程
- 工具:Office套件 vs 终端/IDE
- 持续时间:数小时/天 vs 分钟
- 标准:客户就绪输出 vs 通过测试
APEX-Agents优势:
- 真实世界专业任务(非合成)
- 由领域专家创建
- 经济价值对齐
- 跨应用需求
Terminal-Bench/T2-Bench优势:
- 更受控环境
- 更清晰的成/败定义
- 更容易自动化评估
- 更高基线性能
局限性与失败模式分析
主要失败模式
基于研究分析,APEX-Agents中常见的代理失败:
1. 上下文保留
- 遗忘早期决策
- 遗忘明确约束
- 与之前步骤矛盾
2. 文件导航
- 无法定位正确文档
- 误读文件层级
- 在复杂文件夹结构中迷失
3. 模糊性管理
- 做出假设而非请求澄清
- 将过时逻辑应用于新情况
- 幻觉化未说明的约束
4. 工具选择
- 选择任务错误的应用
- 工具切换低效
- 当许多选项可用时出现"工具瘫痪"
5. 上下文累积
- 不加修剪地添加不相关历史
- 在第15+步后淹死在信息中
- 无法区分信号与噪声
系统级挑战
从生产失败分析中:
- 概率性 vs 确定性:代理在为可复现性构建的系统引入变异性
- 检索噪声:上下文窗口填充速度快于可管理相关性
- 多步错误传播:整个工作流中微小错误复合
- 状态管理:代理缺乏显式状态机设计
什么使APEX-Agents困难?
| 因素 | 挑战 |
|---|---|
| 凌乱上下文 | 工场所数据分散、不完整,跨多个工具 |
| 长持续时间 | 任务需要跨数小时的持续注意力,而非秒 |
| 跨域 | 需要跨金融、法律、运营的知识 |
| 真实后果 | 错误有业务影响,非仅演示失败 |
对开发者的启示
来自Mercor团队
“无模型准备端到端替代专业人士。”
—— Brendan Foody,CEO
来自外部分析
“AI代理仅自动化2.5%的远程工作”
—— Business Day Nigeria(2026年2月)
“不适的真相:它们还没准备好真正的知识工作。”
—— Biswaroop Palit,LinkedIn
性能vs炒作
- 演示与生产的差距:在受控设置中令人印象深刻,在真实工作中困难
- 经济价值错配:任务需要高可靠性(>80%),最佳模型<30%
- 人工监督仍然关键:代理输出需要审查和修正
总结与展望
APEX-Agents代表了AI代理评估的重要进步。通过其真实世界专业任务、专家创建和严格评分标准,它提供了对AI代理在真实、长视野工作环境中能力的准确、可比较评估。
关键发现:
- 即使最佳Claude Opus 4.6仅达29.8%,显著低于生产可靠性要求(>80%)
- Agent架构差异产生6-12%性能差距,凸显检索和脚手架的重要性
- 企业部署已经开始:Box、Salesforce、Databricks开始代理部署
- 当前AI仍远不能替代专业工作者:需要人工监督和审查
启示:
- 企业应谨慎预期:当前代理能力远不足以自动化端到端工作流
- 人类+AI混合是最现实路径**:代理提供辅助,人类提供领域专长和质量控制
- 长期规划是核心挑战:代理在数小时跨度上的状态管理和推理能力需要重大改进
- 评估方法论演进:从受控基准到真实世界任务,更好反映生产需求
参考来源
- APEX-Agents论文:arXiv 2601.14242(v2,2026年1月27日)
- Mercor官方博客:介绍APEX-Agents(2026年1月21日)
- Hugging Face数据集:APEX-Agents数据集(CC-BY 4.0许可)
- Mercor榜单:APEX-Agents排行榜
- 评估基础设施:Archipelago(Apache 2.0许可)
- LinkedIn文章:AI Agents Fall Short in Real-World Work(2026年2月)
- Business Day Nigeria:AI自动化(2026年2月)
- Just Think AI:Beyond the Hype: The New APEX Test(2026年1月23日)
- Arize文章:Why AI Agents Break: A Field Analysis of Production Failures(2026年1月29日)
(本文基于公开信息整理,所有数据和观点均标注来源。来源包括arXiv论文、Mercor官网、Hugging Face、LinkedIn、多个行业分析文章等。)