2605.30794-程序员充电站

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

Authors: Qian Kou*, Xiaofeng Shi*, Yulin Li, Xiaosong Qiu, Xinyang Wang, Hua Zhou, Cao Dongxing |Year: 2026 |arXiv: 2605.30794
机构: Beijing Academy of Artificial Intelligence (BAAI); Institute of Information Engineering, CAS; Beijing University of Technology
会议: ICML 2026

二、研究背景与动机 / Background & Motivation

问题定义

机械工程图纸是设计与制造沟通几何形状、公差与装配意图的核心媒介。与自然图像不同，机械图纸通过标准化图形语言编码语义，包含：

多视图正投影（主视、俯视、左视及剖视）
高密度尺寸标注（尺寸线、公差、符号）
结构化文字（明细表、技术要求）

理解机械图纸需要：(i) 识别高密度标注和领域专用符号；(ii) 依据投影规则推理跨视图空间关系；(iii) 基于制图标准解释几何公差等规范。

现有工作的缺口

尽管 MLLM 在通用 VQA 中取得显著进展，但在机械图纸上表现脆弱：

高标注密度与符号拥挤导致关键决策线索被遗漏
缺乏领域知识 + 不可靠的空间推理导致结构不一致答案
现有 CAD/机械基准仅覆盖特定切片（符号识别、楼层平面图、设计合规），缺乏统一的全方位评测

Figure 1: (a) 机械图纸理解的代表性挑战；(b) MechVQA 任务分类（识别/推理/判断三层）及示例问答

------|--------|------|------|
|识别 Recognition| 识别与计数 | IC | 计数视图数量、孔等 |
| | 尺寸与标注 | DA | 读取尺寸值、公差 |
| | 文字与表格 | TT | 识别明细表、技术要求 |
| | 目标定位 | IL | 定位特征位置 |
|推理 Reasoning| 结构理解 | SU | 理解零件结构 |
| | 几何计算 | GC | 几何尺寸推算 |
| | 装配关系 | AR | 理解零件配合 |
| | 投影与多视图 | PM | 跨视图一致性推理 |
|判断 Judging| 异常检测 | AD | 发现标注错误 |
| | 一致性判断 | CJ | 验证符合制图标准 |

问题按三个难度分级：Easy / Medium / Hard。

3.3 QA 生成与质量控制

三类生成源：

自由生成（Source I）：调用多个强闭源 MLLM（GPT-5、Gemini 3、Claude）生成候选问题 → 跨模型交叉验证 → 多模型回答 + 多数投票筛选
无标准答案的模板生成（Source II）：针对特定子任务设计模板（如标注符号查询），同样经多模型投票验证
有标准答案的模板生成（Source III）：基于专家核验的元数据生成，包括 CAD 工具构造的异常检测题（刻意引入错误尺寸/冗余标注）

最终保留20,778 个 QA 对，按图纸级别严格分割（8:1:1），通过 CLIP 特征聚类避免近似重复跨分割泄露。

Figure 2b: MechVQA 子任务分布与难度级别统计

-----|------|------|
| 准确性r acc r_{\text{acc}}racc|[ 0 , 1 ] [0,1][0,1]| LLM-as-Judge 语义等价判断（非字符串精确匹配） |
| 格式r fmt r_{\text{fmt}}rfmt|{ 0 , 1 } \{0,1\}{0,1}| 是否包含<think>...</think><answer>...</answer>|
| 质量r qual r_{\text{qual}}rqual|[ 0 , 1 ] [0,1][0,1]| LLM 评分：逻辑性 + 专业性 + 简洁性（各[ 0 , 1 ] [0,1][0,1]，平均） |

4.3 两阶段自博弈 RL

全量数据 DAPO：在完整 MechVQA 训练集上训练
定向 DAPO（自博弈重采样）：对弱项子任务提高采样比例，进一步补强能力短板

Figure 2c: 基础模型 → SFT → 全量 RL → 定向 RL 的总分递进

—|-----------|-----------|-----------|---------|
| Qwen3-VL-4B-Instruct | - | - | - | 60.23 |
| GLM-4.6V（最强开源） | 84.02 | 70.50 | 71.81 | 78.91 |
| GPT-4o | - | - | - | 63.06 |
| GPT-5 | - | - | - | 75.44 |
| Gemini-3-Pro-Preview（最强闭源） | 81.56 | 57.42 | 80.52 | 77.28 |
| Claude-Sonnet-4.5 | - | - | - | 71.20 |
|MechVL-4B-SFT（Ours）| 83.11 | 54.40 | 76.91 | 76.36 |
|MechVL-4B-RL（Ours）|89.70|77.04|82.81|84.85|

MechVL-4B-RL 以 4B 参数模型超越 Gemini-3-Pro-Preview（77B+）7.57 pp，超越 GLM-4.6V5.94 pp

难度分层表现（准确率）：

难度	SFT	RL
Easy	92%	94%
Medium	70%	79%
Hard	53%	75%

RL 在中等和困难题上增益最大，表明 RL 主要提升了需要多步推理和约束满足的能力。

Figure 3: 不同模型在各难度等级的准确率斜率图

5.3 消融实验

训练阶段消融：

配置	Rec.	Reas.	Judg.	总分
SFT	83.11	54.40	76.91	76.36
+ DAPO 全量	86.26	70.75	81.62	81.95
+ DAPO 定向	89.70	77.04	82.81	84.85

RL 算法消融（全量阶段）：

算法	Rec.	Reas.	总分
GRPO	83.55	64.49	80.47
GSPO	84.17	61.29	78.77
DAPO	86.26	70.75	81.95

DAPO 在推理子任务上优势最明显（+6.26 pp vs GRPO），这与 DAPO 的不对称裁剪和动态采样设计匹配。

奖励设计消融：

奖励配置	总分
Acc (0/1 二值)	82.24
Acc (F1 词元级)	80.33
无质量奖励	83.44
全量奖励（Ours）	84.85

F1 奖励导致模型输出迅速缩短（1.1K→0.8K token），倾向简短但弱扎根答案；无质量奖励则产生冗长输出（~1.3K token）；完整奖励维持稳定长度（~1.2K token），推理质量最优。

Figure 4: 不同奖励设计下训练过程中响应长度的动态变化

Figure: t-SNE 可视化展示训练/验证/测试集的相互分离（基于 CLIP 嵌入）

七、局限性与展望 / Limitations & Future Work

数据来源范围：基于公开教材/手册，尚未涵盖工厂实际图纸、遗留蓝图或企业特定制图规范。
仅限 2D 理解：包含多视图推理，但不解决完整 3D CAD 重建或工程文件（STEP/IGES）生成。
OCR 与图纸清晰度依赖：极端标注密度、扫描质量差或局部模糊区域可能降低性能。
无人类上界基准：尚未报告领域专家标注一致性统计，未来版本将补充。
数据污染风险：虽通过图纸级分割严格控制，但公开源数据的训练污染不可完全排除。

报告生成时间：2026-06-01 | 图片路径相对于本文件

Codex+本地Qwen3.5无审查实用案例分享及llama对接踩坑。

2605.30794

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

二、研究背景与动机 / Background & Motivation

问题定义

现有工作的缺口

3.3 QA 生成与质量控制

4.3 两阶段自博弈 RL

5.3 消融实验

七、局限性与展望 / Limitations & Future Work

部分平台可能图片显示异常，请以我的博客内容为准

ChanlunX缠论插件：如何用3步实现通达信自动缠论技术分析

AgentScope v2 深度解析：阿里的多智能体操作系统野心

基于小程序的民俗网毕设源码

飞檐走壁中的吸不住问题

华为三层交换机企业标准完整配置

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

二、研究背景与动机 / Background & Motivation

问题定义

现有工作的缺口

3.3 QA 生成与质量控制

4.3 两阶段自博弈 RL

5.3 消融实验

七、局限性与展望 / Limitations & Future Work

部分平台可能图片显示异常，请以我的博客内容为准

Codex+本地Qwen3.5无审查实用案例分享及llama对接踩坑。

ChanlunX缠论插件：如何用3步实现通达信自动缠论技术分析

AgentScope v2 深度解析：阿里的多智能体操作系统野心

基于小程序的民俗网毕设源码

飞檐走壁中的吸不住问题

华为三层交换机 企业标准完整配置

华为三层交换机企业标准完整配置