news 2026/6/22 9:29:21

2605.30794

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2605.30794

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

Authors: Qian Kou*, Xiaofeng Shi*, Yulin Li, Xiaosong Qiu, Xinyang Wang, Hua Zhou, Cao Dongxing |Year: 2026 |arXiv: 2605.30794
机构: Beijing Academy of Artificial Intelligence (BAAI); Institute of Information Engineering, CAS; Beijing University of Technology
会议: ICML 2026

二、研究背景与动机 / Background & Motivation

问题定义

机械工程图纸是设计与制造沟通几何形状、公差与装配意图的核心媒介。与自然图像不同,机械图纸通过标准化图形语言编码语义,包含:

  • 多视图正投影(主视、俯视、左视及剖视)
  • 高密度尺寸标注(尺寸线、公差、符号)
  • 结构化文字(明细表、技术要求)

理解机械图纸需要:(i) 识别高密度标注和领域专用符号;(ii) 依据投影规则推理跨视图空间关系;(iii) 基于制图标准解释几何公差等规范。

现有工作的缺口

尽管 MLLM 在通用 VQA 中取得显著进展,但在机械图纸上表现脆弱:

  • 高标注密度与符号拥挤导致关键决策线索被遗漏
  • 缺乏领域知识 + 不可靠的空间推理导致结构不一致答案
  • 现有 CAD/机械基准仅覆盖特定切片(符号识别、楼层平面图、设计合规),缺乏统一的全方位评测


Figure 1: (a) 机械图纸理解的代表性挑战;(b) MechVQA 任务分类(识别/推理/判断三层)及示例问答

------|--------|------|------|
|识别 Recognition| 识别与计数 | IC | 计数视图数量、孔等 |
| | 尺寸与标注 | DA | 读取尺寸值、公差 |
| | 文字与表格 | TT | 识别明细表、技术要求 |
| | 目标定位 | IL | 定位特征位置 |
|推理 Reasoning| 结构理解 | SU | 理解零件结构 |
| | 几何计算 | GC | 几何尺寸推算 |
| | 装配关系 | AR | 理解零件配合 |
| | 投影与多视图 | PM | 跨视图一致性推理 |
|判断 Judging| 异常检测 | AD | 发现标注错误 |
| | 一致性判断 | CJ | 验证符合制图标准 |

问题按三个难度分级:Easy / Medium / Hard。

3.3 QA 生成与质量控制

三类生成源:

  1. 自由生成(Source I):调用多个强闭源 MLLM(GPT-5、Gemini 3、Claude)生成候选问题 → 跨模型交叉验证 → 多模型回答 + 多数投票筛选
  2. 无标准答案的模板生成(Source II):针对特定子任务设计模板(如标注符号查询),同样经多模型投票验证
  3. 有标准答案的模板生成(Source III):基于专家核验的元数据生成,包括 CAD 工具构造的异常检测题(刻意引入错误尺寸/冗余标注)

最终保留20,778 个 QA 对,按图纸级别严格分割(8:1:1),通过 CLIP 特征聚类避免近似重复跨分割泄露。


Figure 2b: MechVQA 子任务分布与难度级别统计

-----|------|------|
| 准确性r acc r_{\text{acc}}racc|[ 0 , 1 ] [0,1][0,1]| LLM-as-Judge 语义等价判断(非字符串精确匹配) |
| 格式r fmt r_{\text{fmt}}rfmt|{ 0 , 1 } \{0,1\}{0,1}| 是否包含<think>...</think><answer>...</answer>|
| 质量r qual r_{\text{qual}}rqual|[ 0 , 1 ] [0,1][0,1]| LLM 评分:逻辑性 + 专业性 + 简洁性(各[ 0 , 1 ] [0,1][0,1],平均) |

4.3 两阶段自博弈 RL

  1. 全量数据 DAPO:在完整 MechVQA 训练集上训练
  2. 定向 DAPO(自博弈重采样):对弱项子任务提高采样比例,进一步补强能力短板


Figure 2c: 基础模型 → SFT → 全量 RL → 定向 RL 的总分递进

—|-----------|-----------|-----------|---------|
| Qwen3-VL-4B-Instruct | - | - | - | 60.23 |
| GLM-4.6V(最强开源) | 84.02 | 70.50 | 71.81 | 78.91 |
| GPT-4o | - | - | - | 63.06 |
| GPT-5 | - | - | - | 75.44 |
| Gemini-3-Pro-Preview(最强闭源) | 81.56 | 57.42 | 80.52 | 77.28 |
| Claude-Sonnet-4.5 | - | - | - | 71.20 |
|MechVL-4B-SFT(Ours)| 83.11 | 54.40 | 76.91 | 76.36 |
|MechVL-4B-RL(Ours)|89.70|77.04|82.81|84.85|

MechVL-4B-RL 以 4B 参数模型超越 Gemini-3-Pro-Preview(77B+)7.57 pp,超越 GLM-4.6V5.94 pp

难度分层表现(准确率):

难度SFTRL
Easy92%94%
Medium70%79%
Hard53%75%

RL 在中等和困难题上增益最大,表明 RL 主要提升了需要多步推理和约束满足的能力。


Figure 3: 不同模型在各难度等级的准确率斜率图

5.3 消融实验

训练阶段消融

配置Rec.Reas.Judg.总分
SFT83.1154.4076.9176.36
+ DAPO 全量86.2670.7581.6281.95
+ DAPO 定向89.7077.0482.8184.85

RL 算法消融(全量阶段):

算法Rec.Reas.总分
GRPO83.5564.4980.47
GSPO84.1761.2978.77
DAPO86.2670.7581.95

DAPO 在推理子任务上优势最明显(+6.26 pp vs GRPO),这与 DAPO 的不对称裁剪和动态采样设计匹配。

奖励设计消融

奖励配置总分
Acc (0/1 二值)82.24
Acc (F1 词元级)80.33
无质量奖励83.44
全量奖励(Ours)84.85

F1 奖励导致模型输出迅速缩短(1.1K→0.8K token),倾向简短但弱扎根答案;无质量奖励则产生冗长输出(~1.3K token);完整奖励维持稳定长度(~1.2K token),推理质量最优。


Figure 4: 不同奖励设计下训练过程中响应长度的动态变化


Figure: t-SNE 可视化展示训练/验证/测试集的相互分离(基于 CLIP 嵌入)

七、局限性与展望 / Limitations & Future Work

  • 数据来源范围:基于公开教材/手册,尚未涵盖工厂实际图纸、遗留蓝图或企业特定制图规范。
  • 仅限 2D 理解:包含多视图推理,但不解决完整 3D CAD 重建或工程文件(STEP/IGES)生成。
  • OCR 与图纸清晰度依赖:极端标注密度、扫描质量差或局部模糊区域可能降低性能。
  • 无人类上界基准:尚未报告领域专家标注一致性统计,未来版本将补充。
  • 数据污染风险:虽通过图纸级分割严格控制,但公开源数据的训练污染不可完全排除。

报告生成时间:2026-06-01 | 图片路径相对于本文件

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 21:23:18

ChanlunX缠论插件:如何用3步实现通达信自动缠论技术分析

ChanlunX缠论插件&#xff1a;如何用3步实现通达信自动缠论技术分析 【免费下载链接】ChanlunX 缠中说禅炒股缠论可视化插件 项目地址: https://gitcode.com/gh_mirrors/ch/ChanlunX ChanlunX是一款专为通达信用户设计的开源缠论自动化分析插件&#xff0c;通过智能算法…

作者头像 李华
网站建设 2026/6/7 12:43:10

AgentScope v2 深度解析:阿里的多智能体操作系统野心

从 1.5万 Star 的实验框架&#xff0c;到面向生产的 Agent 基础设施发布时间: 2026-06-05 来源: 阿里通义实验室 | https://docs.agentscope.io/v21. 为什么不是又一个 Agent 框架 2024 年 2 月&#xff0c;阿里通义实验室开源了 AgentScope。当时的 GitHub 仓库在一年内攒到 1…

作者头像 李华
网站建设 2026/6/5 21:19:25

基于小程序的民俗网毕设源码

博主介绍&#xff1a;✌ 专注于Java,python,✌关注✌私信我✌具体的问题&#xff0c;我会尽力帮助你。一、研究目的本研究旨在构建一个基于小程序的民俗文化传播平台&#xff0c;以解决当前非物质文化遗产保护工作中存在的信息传播效率低下、公众参与度不足以及资源利用不充分等…

作者头像 李华
网站建设 2026/6/8 4:37:40

飞檐走壁中的吸不住问题

简 介&#xff1a; 【】 四川省赛“飞檐走壁”组参赛队员反馈&#xff0c;靠后出场的队伍&#xff08;如44队中的末位组&#xff09;在未修改负压参数时出现圆筒吸附失效问题&#xff0c;推测因连续比赛导致赛道磨损或温度升高影响吸附效果。多支队伍被迫临时调大负压才能完成比…

作者头像 李华
网站建设 2026/6/8 3:41:00

华为三层交换机 企业标准完整配置

适用设备&#xff1a;华为 S5300、S5700、S5720 全系列三层交换机核心功能&#xff1a;设备初始化、安全运维、VLAN隔离、三层互通、上联路由、环路防护、安全加固、上线核验一、基础系统初始化配置<Huawei> system-view …

作者头像 李华