【论文自动阅读】ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning-程序员充电站

快速了解部分

基础信息（英文）：

题目: ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
时间: 2025.09
机构: NVIDIA, National Taiwan University
3个英文关键词: Vision-Language-Action (VLA), Reinforced Visual Latent Planning, Embodied Reasoning

1句话通俗总结本文干了什么事情

本文提出了一种名为ThinkAct的框架，让机器人先通过视觉和语言进行“思考”（规划），再执行动作，从而解决复杂任务。

研究痛点：现有研究不足 / 要解决的具体问题

现有的VLA模型通常是端到端训练的，缺乏显式的推理过程，导致在多步规划、适应复杂任务变化以及动态环境中的自我纠错能力上存在不足。

核心方法：关键技术、模型或研究设计（简要）

采用双系统架构，利用强化学习（RL）训练多模态大模型（MLLM）生成基于视觉奖励的推理计划，将这些计划压缩为视觉潜伏轨迹，指导下游的动作模型执行。

深入了解部分

相比前人创新在哪里

引入强化学习进行推理：不同于以往依赖昂贵的监督式思维链（CoT）数据，ThinkAct利用视觉对齐的奖励信号（如目标完成度和轨迹一致性）通过强化学习引导模型进行长程规划。
视觉潜伏规划：将抽象的语言推理转化为紧凑的视觉潜伏轨迹（Visual Plan Latent），作为高层意图连接低层动作执行，实现了“慢思考、快行动”的异步操作。
涌现能力：该方法使得模型具备了少样本适应、长程规划以及在执行失败时进行自我纠错的能力。

解决方法/算法的通俗解释

ThinkAct就像给机器人装了一个“大脑”和一个“小脑”。大脑（MLLM）负责看懂环境并制定计划（比如“先抓这个，再放那个”），它通过想象动作带来的视觉效果来判断计划好不好（强化学习）。大脑把计划简化成一张“地图”（视觉潜伏轨迹），交给小脑（动作模型）去根据这张地图精确地控制手臂移动。两者可以异步工作，大脑想一步，小脑执行多步。

解决方法的具体做法

强化微调（GRPO）：使用Group Relative Policy Optimization (GRPO)算法，基于动作对齐的视觉反馈（目标奖励rgoalr_{goal}rgoal和轨迹奖励rtrajr_{traj}rtraj）来微调MLLM，使其生成包含推理过程和视觉轨迹的输出。
视觉潜伏规划：MLLM生成的视觉轨迹被编码为潜伏向量ctc_tct。
动作适应：冻结MLLM，训练一个基于DiT的策略模型（Action Model），通过潜伏投影器（Latent Projector）接收ctc_tct的指导，预测具体的动作。

基于前人的哪些方法

基于预训练的多模态大模型（Qwen2.5-VL），结合了Open X-Embodiment (OXE) 数据集进行动作预训练，并借鉴了GRPO（类似DeepSeek-R1的强化学习方法）进行推理优化。

实验设置、数据、评估方式、结论

数据：使用Open X-Embodiment (OXE) 子集、Something-Something v2 人类视频数据，以及RoboVQA、EgoPlan-Bench等问答数据。
设置：在SimplerEnv和LIBERO两个模拟机器人操作基准上进行评估。
评估方式：任务成功率（Manipulation）、准确率（Reasoning Benchmarks）。
结论：ThinkAct在少样本适应（10-shot）、长程规划（LIBERO-Long）和自我纠错方面均优于现有SOTA模型（如OpenVLA, CoT-VLA, Magma等）。

提到的同类工作

OpenVLA(Kim et al., 2024): 基于MLLM的大规模机器人动作模型，作为本文的基线之一。
CoT-VLA(Zhao et al., 2025): 通过视觉子目标帧进行推理的VLA模型。
Magma(Yang et al., 2025): 一个通用的多模态AI代理基础模型。

和本文相关性最高的3个文献

CoT-VLA(Zhao et al., 2025): 同样关注VLA中的推理（思维链），但采用视觉子目标而非本文的强化学习潜伏规划。
Video-R1(Feng et al., 2025): 使用R1风格的强化学习优化视频推理，启发了本文使用RL进行推理的方法，但本文将其扩展到了动作执行领域。
RAD(Clark et al., 2025): 利用无动作的人类视频进行推理数据整理，与本文利用人类视频进行推理训练有相似动机，但方法不同。

Ab 1756 plc+上位机程序钢铁厂冲渣池水泵阀门仪表自动控制所有程序

Ab 1756 plc上位机程序钢铁厂冲渣池水泵阀门仪表自动控制所有程序加画面在钢铁厂冲渣池的自动化控制系统中，罗克韦尔1756系列PLC搭配上位机程序是常见方案。这个项目里最带劲的是水泵群控策略——既要防爆又要防堵，水池液位低于2米自动停泵这…

李华

收藏！大厂集体加码AI赛道，零基础可入的大模型训练师，年薪最高36W+

据央广网12月17日报道，腾讯对大模型研发架构进行重大升级，新组建AI Infra部、AI Data部及数据计算平台部三大核心部门。这一动作信号明确，腾讯正全力押注AI赛道，通过架构优化夯实核心竞争力，抢占行业先机。事实上&am…

李华

收藏！Agent和Workflow有什么区别？大模型学习者必看

在大模型开发与落地过程中，Agent（智能体）和Workflow（工作流）是高频出现的两个核心概念，很多刚入门的开发者容易混淆二者的定位与用法。其实二者的核心分野的在于流程控制权与动态适配能力，理清它…

李华

paperzz 文献综述：解锁本科阶段学术写作的智能辅助密码

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿 paperzz - 文献综述https://www.paperzz.cc/journalsReviewedhttps://www.paperzz.cc/journalsReviewed 在本科阶段的学术成长中，文献综述的写作往往是一座横亘在学生面前的 “隐形门槛”。从确…

李华

Kafka高性能揭秘：零拷贝、顺序写与页缓存，千万级吞吐量的底层原理深度剖析

聊一个老生常谈，但 90% 的人只知其一不知其二的话题：Kafka 为什么这么快？ 很多同学在面试时都能背出那几句八股文：“零拷贝、顺序写、页缓存”。但如果面试官追问一句：“你能在 Java 里写出零拷贝的代码吗&#xff1f…

李华