news 2026/6/10 10:15:30

【澳门大学-郑哲东-ICLR26】SketchThinker-R1:迈向大型多模态模型中的高效草图式推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【澳门大学-郑哲东-ICLR26】SketchThinker-R1:迈向大型多模态模型中的高效草图式推理

文章:SKETCHTHINKER-R1: TOWARDS EFFICIENT SKETCH STYLE REASONING IN LARGE MULTIMODAL MODELS

代码:https://github.com/Ruiyang-061X/SketchThinker-R1

单位:澳门大学科技学院与智能计算与交互研究所、上海人工智能实验室


一、问题背景

当前大型多模态模型(LMMs)在视觉识别、逻辑推理等任务中,通过冗长的逐步推理(如链思推理CoT)实现了性能提升,但随之而来的是两大核心痛点:一是推理效率低下,冗长的推理过程导致token消耗剧增、响应时间延长,难以适配实时交互场景;二是推理有效性受损,过度思考可能引入冗余信息或累积微小错误,最终影响答案准确性,同时复杂的推理轨迹也不利于人类理解核心逻辑。

反观人类解决问题的思维模式,往往会采用“草图式推理”——聚焦关键信息、精简逻辑步骤,在保证正确性的前提下实现高效决策。受此启发,如何让多模态模型具备类似的简洁推理能力,在不牺牲答案准确性的前提下降低推理成本,成为当前领域亟待解决的问题。

二、方法创新

SketchThinker-R1提出了一套三阶段强化学习框架,核心是为模型注入“草图式推理”能力,让推理过程既精简又精准:

1. 草图模式冷启动(Sketch-Mode Cold Start)

基于现有多模态推理数据集(如LLaVA-CoT-100K、Vision-R1-cold),利用强大的LLM(如GPT-5)将冗长的推理过程(T_Long)转化为草图式推理(T_Sketch)。转化过程严格遵循“保留核心逻辑、去除冗余细节、结构化呈现”三大原则,最终构建含20K样本的SketchColdStart-20K数据集。通过在该数据集上微调基础多模态模型,为后续强化学习奠定初始的草图推理能力。

2. 草图评估奖励模型(SketchJudge Reward Model)

为了精准引导模型的推理风格,专门训练了一个奖励模型:利用冷启动阶段的“长推理”和“草图推理”双模式数据,将长推理标注为0分、草图推理标注为1分,微调开源LLM使其具备区分推理风格的能力。该模型能为推理过程打分,对简洁聚焦的草图式推理给予高奖励,对冗长冗余的推理予以惩罚,为后续强化学习提供可靠的监督信号。

3. 草图推理强化学习(Sketch-Thinking Reinforcement Learning)

基于冷启动后的模型,采用GRPO(Group Reward Proximal Optimization)算法进行强化学习。奖励设计融合了三部分:答案准确性(权重0.5)、响应格式规范性(权重0.4)、草图推理风格得分(权重0.1),通过多领域数据集(MMStar、MathVista等)训练,让模型在保持准确性的同时,进一步泛化草图式推理能力。

三、实验结果

研究团队在4个跨领域基准数据集(MMMU、MathVision、VisuLogic、PhyX)上进行了全面评估,结果表现亮眼:

1. 核心性能指标

  • 推理成本大幅降低:相比传统R1风格训练的Vanilla-R1模型,SketchThinker-R1的推理token消耗减少超过64%,部分场景(如VisuLogic)甚至减少76.5%;

  • 准确性保持或提升:在所有基准测试中,SketchThinker-R1的答案准确率均不低于基线模型,部分数据集(如MMMU)准确率提升1.8-2.8个百分点;

  • 推理效率碾压基线:提出的“思维效率(EoT)”指标(准确率/推理token数)显示,SketchThinker-R1的EoT值是Vanilla-R1的2-3倍,远超Prompt-based、SFT-based等其他高效推理方法。

2. 模型泛化性验证

  • 无论是7B还是3B规模的模型,SketchThinker-R1均能稳定实现“降本增效”,3B模型的推理token消耗减少超50%,验证了框架在不同模型尺度下的鲁棒性;

  • 消融实验表明:冷启动阶段与强化学习的结合是关键,仅靠冷启动泛化能力有限,仅靠强化学习则探索效率低下;而GPT-5生成的冷启动数据、多源数据融合能进一步提升模型性能。

四、优势与局限

优势

  1. 效率与准确性兼得:突破“长推理=高性能”的固有认知,通过草图式推理实现“少token+高准确率”,响应时间缩短约20%,训练成本降低19%;

  2. 可解释性更强:草图式推理聚焦关键逻辑步骤,以结构化列表呈现,无论是人类评估还是LVLM自动评估,其推理轨迹的可解释性均优于传统冗长推理;

  3. 通用性广:适用于数学计算、物理推理、视觉逻辑等多个领域,且能适配不同规模的多模态模型,落地场景灵活。

局限

  1. 草图式推理的质量高度依赖初始转化工具(如GPT-5)的能力,开源LLM生成的转化数据可能导致准确性损失;

  2. 对于极复杂的推理任务,模型仍可能需要一定长度的推理链,过度追求简洁可能影响复杂场景的性能;

  3. 目前的奖励机制中,准确性与草图风格的权重平衡依赖人工调参,尚未实现动态自适应调整。

五、一句话总结

SketchThinker-R1通过“冷启动注入初始能力+奖励模型引导风格+强化学习泛化”的三阶段框架,让大型多模态模型具备人类式的草图推理能力,在降低64%以上推理成本的同时保持甚至提升答案准确性,为高效多模态推理提供了全新解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 16:42:00

【山海鲸实战案例】通过二维组件控制三维场景昼夜变化

在项目制作过程中,我们可能会需要手动控制三维场景的昼夜切换,此时通过按钮组件的交互设置就可以非常简单地达到目的,下面我们就来看一下具体该如何进行设置。 首先,创建一个三维场景。 添加两个“按钮”组件,分别命名…

作者头像 李华
网站建设 2026/6/3 22:21:14

原子层加工技术推动碳化硅量子光子电路发展

原子层加工技术助力碳化硅量子光子电路蓬勃发展 来自马克斯普朗克光科学研究所(Max Planck Institute for the Science of Light)与弗劳恩霍夫集成系统与元器件技术研究所(Fraunhofer Institute for Integrated Systems and Device Technolo…

作者头像 李华
网站建设 2026/5/30 22:17:45

深圳跨境电商中的“亚马逊精品模式“详解

深圳跨境电商中的"亚马逊精品模式"详解 一、核心定义 亚马逊精品模式是跨境电商中一种"少而精"的运营策略,指卖家专注于少数高潜力产品(通常成熟期仅需10-20款),通过深度选品、精细化运营和供应链优化&#x…

作者头像 李华
网站建设 2026/6/10 3:14:49

SAP ABAP代码实现常规数据批导(剪切板方式)

SAP中经常会需要开发很多批导的程序,一般会用Excel上传数据的方式,这种经常会出现excel的各种问题,处理起来也麻烦。所以本文介绍另外一种方式,全程不使用Excel下载或者上传,使用剪切板获取模板和上传数据。一、导出模…

作者头像 李华
网站建设 2026/5/29 7:56:54

ESP32-S2-MINI-2:高性能、高集成度的物联网Wi-Fi模组解析

ESP32-S2-MINI-2是一款紧凑的2.4 GHz Wi-Fi(802.11 b/g/n)模块,内置ESP32-S2 系列芯片(版本v1.0),搭载Xtensa单核32位LX7微控制器。该模块通过芯片叠封技术集成4MB flash,并支持额外叠封2MB PSRAM,提供多达…

作者头像 李华
网站建设 2026/5/30 17:50:46

企业AI转型困境,AI应用架构师路线图来拯救

企业AI转型困境突围:AI应用架构师路线图指南 关键词:企业AI转型、AI应用架构师、转型困境、路线图、AI技术应用 摘要:本文旨在深入剖析企业AI转型过程中面临的诸多困境,并通过构建AI应用架构师路线图为企业提供有效解决方案。从阐…

作者头像 李华