1. 多模态浏览代理的现状与挑战
在人工智能领域,多模态大语言模型(MLLMs)正经历着从单纯的文本理解到多模态智能代理的转变。这种进化使得模型能够同时处理文本、图像、视频等多种信息形式,并通过工具调用能力在开放网络环境中进行自主探索和决策。然而,这种能力的快速提升也带来了新的评估挑战——我们如何准确衡量这些智能代理在真实网络环境中的表现?
当前主流评估方法存在三个明显缺陷:首先,任务设计过于简单,大多局限于两跳以内的浅层检索,无法反映真实网络搜索的复杂性;其次,关键信息往往来自非公开资源(如付费视频或内部文档),导致评估结果难以复现;最后,评估维度单一,仅关注最终答案的正确性,而忽视了搜索过程中的推理质量。这些问题严重制约了我们对多模态浏览代理真实能力的理解。
2. BrowseComp-V3基准的核心设计理念
2.1 多维度的跨模态覆盖
BrowseComp-V3通过两个关键维度提升任务复杂性:搜索深度和跨模态交互。在搜索深度方面,基准引入了多跳推理设计,要求代理在不同网页间进行信息串联。例如,一个典型任务可能要求:"根据图中穿红色衣服人物左侧运动员的信息,查找他在加拿大公开赛16强比赛中的总得分"。这类问题需要代理先识别图像中的特定人物,再通过文本搜索获取比赛信息,最后进行计算。
跨模态交互则分为三个复杂度层级:
- 区域内对齐:在同一视觉区域内关联文本和图像信息
- 区域间整合:在不同视觉区域间建立信息关联
- 图像间推理:跨多个图像进行联合推理
2.2 过程导向的细粒度评估
与传统基准不同,BrowseComp-V3为每个任务设计了专家验证的子目标序列。这些子目标不仅指导任务分解,还支持过程级别的评估。我们定义"过程得分"(Process Score)作为核心指标:
ProcessScore(q) = | ˆGq| / |Gq|其中Gq表示解决问题q所需的真实子目标集合,ˆGq表示模型实际完成的子目标集合。这种评估方式能精确识别模型在哪些推理环节出现瓶颈。
2.3 高可靠性与可复现性
为确保评估的严谨性,BrowseComp-V3采用三重过滤标准:
- 证据可追溯性:所有支持证据必须能通过公开搜索引擎获取,并提供完整的人工标注轨迹
- 时间稳定性:优先选择时间不变的客观知识,避免动态网页内容的影响
- 答案客观性:要求答案简洁可验证,支持标准化自动评估
3. 数据集构建与质量控制
3.1 五阶段构建流程
BrowseComp-V3的构建遵循严格的闭环质量保证框架(如图1所示),包含五个关键阶段:
阶段1:初始化与指南制定由领域专家定义核心评估维度(领域多样性、任务层级和跳数分布),并构建包含视觉输入、查询、子目标、答案和元数据的初始范例。这些范例与指导文档共同为后续大规模标注建立黄金标准。
阶段2:工具增强的探索性标注标注人员根据领域专业知识分配子任务,使用专业工具套件(包括文本搜索、网页访问、图像搜索、图像裁剪和反向图像搜索)进行探索性网络搜索。他们记录完整的交互轨迹,将复杂任务分解为关键子目标,并标注获取每项关键证据所需的能力。
阶段3:双重验证与对抗过滤原始数据集经历两个连续的筛选阶段。首先,在人工验证循环中,验证者复现标注的搜索轨迹,评估逻辑连贯性、证据支持和答案准确性。未通过验证的样本返回修订。其次,使用最先进的多模态大模型过滤掉简单示例,确保保留涉及长尾知识或复杂推理需求的挑战性样本。
阶段4:结构化数据格式化验证通过的样本经过后处理,转换为统一的JSON格式,包含标准化的输入/输出字段、子目标和交互轨迹。这种格式化既保证人类可读性,也支持机器可解释性,便于自动化评估管道的构建。
阶段5:专家质量控制在正式发布前,领域专家审核结构化数据的安全性、隐私合规性和事实准确性。只有通过审核的样本才会纳入最终数据集,确保符合伦理和专业标准。
3.2 数据集统计特征
BrowseComp-V3包含300个精心设计的问题,覆盖科学、技术、社会、文化和生活五大领域(如图2左)。这些问题根据复杂度分为三个级别:
- 级别1:单一视觉搜索(89题)
- 级别2:跨区域整合(140题)
- 级别3:跨图像推理(71题)
难度分布上,45题为简单级别,139题为中等,86题为困难,30题为专家级(如图2右)。这种分层设计能全面评估模型在不同复杂度任务上的表现。
4. 实验设计与关键发现
4.1 评估设置
我们在四种代表性设置下系统评估BrowseComp-V3:
人类基线:招募具有博士水平专业知识的参与者,使用标准网页浏览器独立解决问题。参与者可自由浏览公开网络资源收集证据,产生可验证答案。
无工具MLLMs:评估多个SOTA MLLMs在无工具访问情况下的表现,模型必须直接生成答案。评估模型包括GPT-5.2、o4-mini、GPT-4o等9个主流模型。
工具增强MLLMs:评估通过官方网络平台访问的工具增强模型服务,启用最大推理模式以发挥其全部能力。包括GPT-5.2-Thinking、Gemini-3-Pro-Preview等。
OmniSeeker:评估使用我们自定义的多模态浏览代理框架的模型表现。该框架配备标准化工具,包括文本搜索、网页访问、图像搜索等。
4.2 主要结果分析
表2展示了BrowseComp-V3上的性能对比,关键发现如下:
性能差距与基准难度:人类平均成功率为68.03%,过程得分为82.93%。相比之下,所有模型的成功率均低于40%,验证了基准区分真实搜索复杂度的能力。
工具增强的关键作用:无工具时,大多数模型成功率仅约10%。工具增强带来显著提升,表明参数化知识无法充分捕获开放网络中的动态跨模态证据链。
OmniSeeker的有效性:当配备OmniSeeker时,所有模型均实现显著改进,性能媲美专用专有系统。特别是开源模型Doubao-Seed-1.8达到33.67%的成功率。
过程评估的价值:过程得分普遍高于成功率,表明模型能完成单独子目标但难以维持长序列任务的逻辑一致性。这种差距凸显了细粒度过程评估的必要性。
4.3 细粒度能力分析
任务级别表现(表3):随着任务复杂度从级别1提升到级别3,模型性能显著下降。这表明模型能有效执行单一视觉搜索,但在区域间整合和图像间关系推理方面面临挑战。
搜索深度影响(图3左):人类和模型性能都随搜索深度增加而下降,但模式不同。人类在较长搜索路径上表现急剧下降,而模型下降更平缓,暗示模型利用参数化知识补偿搜索复杂度。
能力边界(图3右):人类瓶颈主要在文本搜索(因处理大量文本时的注意力限制),而模型瓶颈在多模态整合。闭源模型相比开源模型显著减少了感知和 grounding 错误。
4.4 失败模式分析
图5展示了四个代表模型的错误分布:
多模态grounding与感知:视觉grounding和感知失败主导所有模型的错误分布,表明当前MLLMs难以在复杂嘈杂的网络环境中准确提取和感知视觉信息。
多模态进展与规划约束:闭源模型相比开源模型大幅减少感知和grounding错误。但随着多模态能力提升,长程规划成为限制SOTA模型进一步改进的主要瓶颈。
5. OmniSeeker框架设计
为解决现有模型的局限性,我们开发了OmniSeeker——一个统一的多模态浏览代理框架。该框架的核心创新包括:
5.1 模块化工具集成
OmniSeeker整合了五类关键工具:
- 文本搜索:基于Serper API,返回前5个结果
- 图像搜索:输出嵌入对话上下文作为base64编码数据
- 网页访问:使用Jina AI检索和解析网页内容
- 图像裁剪:以编程方式执行,返回裁剪后的图像
- 反向图像搜索:支持基于视觉内容的检索
5.2 自适应规划机制
框架采用基于强化学习的规划器,能够:
- 动态评估子目标完成进度
- 根据上下文调整工具使用策略
- 在证据不足时发起补充搜索
- 在多跳推理中维持信息一致性
5.3 开源实现优势
OmniSeeker作为开源框架,相比闭源系统具有三大优势:
- 透明度:完整公开工具调用逻辑和决策过程
- 可扩展性:支持自定义工具集成
- 成本效益:可在本地部署,避免API调用费用
实验表明,当配备OmniSeeker时,开源模型性能提升显著,Doubao-Seed-1.8达到33.67%的成功率,接近GPT-5.2-Thinking的39.13%。
6. 实际应用建议
基于BrowseComp-V3的评估结果,我们为开发多模态浏览代理提出以下实践建议:
6.1 模型选择策略
闭源模型:适合需要最高准确率的场景,但成本较高
- GPT-5.2-Thinking:综合性能最佳(39.13% SR)
- Gemini-3-Pro-Preview:视觉任务表现突出
开源模型+OmniSeeker:平衡性能与成本
- Doubao-Seed-1.8:开源模型最佳(33.67% SR)
- Qwen3-VL-235B:中文场景优势明显
6.2 工具调用优化
- 交互轮次:设置10-20轮最大交互(图4左),较大模型能从更多轮次中获益
- 采样策略:采用Best-of-N(N=4-8)可提升一致性(图4右)
- 失败处理:当连续3次工具调用失败时,应触发重新规划
6.3 错误缓解措施
针对常见错误类型(图5):
- 视觉grounding错误:添加注意力可视化模块,验证模型关注区域
- 图像感知失败:对关键图像区域进行多次裁剪和放大
- 候选实体混淆:维护实体消歧记录,避免重复错误
- 推理错误:引入逐步验证机制,检查中间结论合理性
7. 未来研究方向
BrowseComp-V3揭示的几个关键研究方向值得关注:
- 原生多模态推理:当前模型依赖串联的单模态处理,需要发展真正的跨模态联合推理架构
- 长程规划优化:改进模型在复杂任务中的子目标分解和进度管理能力
- 动态知识整合:增强模型区分参数知识和实时检索信息的能力
- 评估范式扩展:开发更全面的过程评估指标,捕捉推理质量、工具使用效率等维度
关键提示:在实际部署多模态浏览代理时,务必设置人工复核环节,特别是对于医疗、法律等高风险领域的查询。即使最先进的模型在BrowseComp-V3上也仅达到36%准确率,这提醒我们需要谨慎看待AI系统在关键任务中的自主性。