什么是 DualTHOR？用于提高双臂机器人实际适应能力的新一代模拟器-程序员充电站

摘要

本文提出了一个高精度模拟平台 DualTHOR，用于模拟双臂仿人机器人在现实世界中执行任务的情况，并评估其规划能力和鲁棒性。许多传统模拟器都是围绕轮式或单臂机器人设计的，往往会忽略物理不确定性和可能出现的故障。这限制了它们在现实世界中的应用。

DualTHOR 是对 AI2-THOR 的扩展，具有双臂机器人（Unitree H1 和 Agibot X1）的多种任务套件、基于物理的逆运动学、连续运动控制以及 “执行过程中的故障（如断裂、溢出）模拟应急机制”。这种机制使代理能够弥合计划期间的意图与现实中的不确定性之间的差距，并有望培养出高度适应现实世界的代理。

此外，还使用最新的视觉语言模型（VLM）进行了基线评估，结果表明当前模型在处理双臂任务和不确定性方面仍存在挑战。

建议的方法

DualTHOR 遵循 AI2-THOR 的基本设计，但假定是一个仿人双臂机器人。它由三个主要部分组成。

首先是双臂任务的专用任务设计。它定义了大量需要复杂操作的家庭任务，假定单臂难以完成的动作（例如，一手拿杯，一手倒水）。任务分为 “双臂强制任务”、"双臂可选任务 "和 “单臂任务”，这种设计增强了模型的通用性和灵活性。

其次是物理连续动作控制。在 X1 和 H1 中，IK 的配置不同，X1 提供单臂控制，而 H1 则提供全身协调的双臂控制。

第三是应急机制。每个动作都有一定的失败概率（如杯子打碎、液体溢出），因此模型需要制定恢复计划。通过这一机制，可以对模型进行评估，包括评估其在计划失败时的重建能力。

实验

在实验中，使用 GPT-4o 和 Gemini 1.5 Pro 等大型 VLM、Qwen2.5-VL 等开放式模型以及 DAG-Plan 等结构化提示对包含 10 个不同房间、68 个对象和 356 个任务的模型进行了评估。

评估分为 “双臂强制”、"双臂可选 "和 "单臂 "三个类别，另外还有三个难度级别（简单、中等和困难）和不同的行为成功率，以比较各种条件下的成功率。

结果表明，现有的 VLM 在所有类别的双臂基本任务中成功率都很低，尤其是在复杂任务和意外情况下，性能明显降低。例如，即使使用 DAG-Plan，双臂任务的成功率也只有 40% 左右，而且还发现了对动态重新规划和手臂相互干扰处理不当的例子。

实验还使用了 “连续物理渲染”（例如，描绘水的逐渐积累），以检查 VLM 是否能够跟踪视觉变化并更新其理解和规划。通过这样的设计，DualTHOR 揭示了当前技术的局限性，并对 VLM 的未来发展提出了明确的挑战。

云手机PC键盘输入实现原理

在PC端通过云手机客户端远程操作云手机时，会面临输入方式不匹配的问题：当在云手机界面点击输入框，系统会触发Android自带的虚拟键盘，该类键盘主要针对触摸屏设计，在PC端难以高效使用。而PC用户通常更习惯于使用实体键盘…

李华

告别手动输入：用Ocrs轻松实现图像文字识别

告别手动输入：用Ocrs轻松实现图像文字识别【免费下载链接】ocrs Rust library and CLI tool for OCR (extracting text from images) 项目地址: https://gitcode.com/gh_mirrors/oc/ocrs 还在为从图片中提取文字而烦恼吗？😩 无论是扫…

李华

多模态模型正则化实战：从过拟合困境到生产级部署

多模态模型正则化实战：从过拟合困境到生产级部署【免费下载链接】awesome-multimodal-ml Reading list for research topics in multimodal machine learning 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-multimodal-ml 当你的多模态模型在训练集…

李华

24、打造安全无忧的 Linux 系统

打造安全无忧的 Linux 系统在当今数字化时代，计算机安全至关重要。想象一下，你出门上班时不会让家门大开，同样，我们也不能让计算机系统存在安全隐患。然而，很多人每天都在不经意间让自己的计算机门户大开，却浑然不知。接下来，我们将详细探讨如何保障 Linux 系统的安全…

李华

语音识别技术的新纪元：从听懂到理解的跨越

语音识别技术的新纪元：从听懂到理解的跨越【免费下载链接】FunASR A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models. 项目地址: https://gitcode.com/gh_mirrors/fu/FunASR 在智能语音技术飞速发展的今天&…

李华

IP6529_Q1至为芯支持PD快充的45W车规级DC-DC芯

英集芯IP6529_Q1是一款适用于车载USB Type-C PD充电器方案的车规级DC-DC降压芯片，符合AEC-Q100 Grade 2标准，工作温度范围为-40℃至105℃，可在极端温度环境下稳定工作。集成PD2.0/3.1、QC2.0/3.0/3及Apple协议等所有主流快充协议。提供最大45…

李华