【澳门大学-郑哲东-ICLR26】SketchThinker-R1：迈向大型多模态模型中的高效草图式推理-程序员充电站

文章：SKETCHTHINKER-R1: TOWARDS EFFICIENT SKETCH STYLE REASONING IN LARGE MULTIMODAL MODELS

代码：https://github.com/Ruiyang-061X/SketchThinker-R1

单位：澳门大学科技学院与智能计算与交互研究所、上海人工智能实验室

一、问题背景

当前大型多模态模型（LMMs）在视觉识别、逻辑推理等任务中，通过冗长的逐步推理（如链思推理CoT）实现了性能提升，但随之而来的是两大核心痛点：一是推理效率低下，冗长的推理过程导致token消耗剧增、响应时间延长，难以适配实时交互场景；二是推理有效性受损，过度思考可能引入冗余信息或累积微小错误，最终影响答案准确性，同时复杂的推理轨迹也不利于人类理解核心逻辑。

反观人类解决问题的思维模式，往往会采用“草图式推理”——聚焦关键信息、精简逻辑步骤，在保证正确性的前提下实现高效决策。受此启发，如何让多模态模型具备类似的简洁推理能力，在不牺牲答案准确性的前提下降低推理成本，成为当前领域亟待解决的问题。

二、方法创新

SketchThinker-R1提出了一套三阶段强化学习框架，核心是为模型注入“草图式推理”能力，让推理过程既精简又精准：

1. 草图模式冷启动（Sketch-Mode Cold Start）

基于现有多模态推理数据集（如LLaVA-CoT-100K、Vision-R1-cold），利用强大的LLM（如GPT-5）将冗长的推理过程（T_Long）转化为草图式推理（T_Sketch）。转化过程严格遵循“保留核心逻辑、去除冗余细节、结构化呈现”三大原则，最终构建含20K样本的SketchColdStart-20K数据集。通过在该数据集上微调基础多模态模型，为后续强化学习奠定初始的草图推理能力。

2. 草图评估奖励模型（SketchJudge Reward Model）

为了精准引导模型的推理风格，专门训练了一个奖励模型：利用冷启动阶段的“长推理”和“草图推理”双模式数据，将长推理标注为0分、草图推理标注为1分，微调开源LLM使其具备区分推理风格的能力。该模型能为推理过程打分，对简洁聚焦的草图式推理给予高奖励，对冗长冗余的推理予以惩罚，为后续强化学习提供可靠的监督信号。

3. 草图推理强化学习（Sketch-Thinking Reinforcement Learning）

基于冷启动后的模型，采用GRPO（Group Reward Proximal Optimization）算法进行强化学习。奖励设计融合了三部分：答案准确性（权重0.5）、响应格式规范性（权重0.4）、草图推理风格得分（权重0.1），通过多领域数据集（MMStar、MathVista等）训练，让模型在保持准确性的同时，进一步泛化草图式推理能力。

三、实验结果

研究团队在4个跨领域基准数据集（MMMU、MathVision、VisuLogic、PhyX）上进行了全面评估，结果表现亮眼：

1. 核心性能指标

推理成本大幅降低：相比传统R1风格训练的Vanilla-R1模型，SketchThinker-R1的推理token消耗减少超过64%，部分场景（如VisuLogic）甚至减少76.5%；
准确性保持或提升：在所有基准测试中，SketchThinker-R1的答案准确率均不低于基线模型，部分数据集（如MMMU）准确率提升1.8-2.8个百分点；
推理效率碾压基线：提出的“思维效率（EoT）”指标（准确率/推理token数）显示，SketchThinker-R1的EoT值是Vanilla-R1的2-3倍，远超Prompt-based、SFT-based等其他高效推理方法。

2. 模型泛化性验证

无论是7B还是3B规模的模型，SketchThinker-R1均能稳定实现“降本增效”，3B模型的推理token消耗减少超50%，验证了框架在不同模型尺度下的鲁棒性；
消融实验表明：冷启动阶段与强化学习的结合是关键，仅靠冷启动泛化能力有限，仅靠强化学习则探索效率低下；而GPT-5生成的冷启动数据、多源数据融合能进一步提升模型性能。