news 2026/4/18 3:12:53

MANUS:用于视觉、语言、行动模型创建的高保真第一人称数据采集设备

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MANUS:用于视觉、语言、行动模型创建的高保真第一人称数据采集设备

“RoboBrain-Dex:多源自我中心训练用于集成灵巧视觉-语言-行动模型”。

灵巧手遥操作目前为止仍然是机器人技术中最具挑战性的前沿领域之一。尽管视觉-语言-动作模型在通用机器人能力方面表现出很大潜力,但其面临一个关键瓶颈:灵巧手技能的大规模学习、动作注释数据稀缺。传统遥操作方法成本高且耗时,而现有的人类运动数据集则存在视角依赖、遮挡和捕获环境受限等问题,这限制了它们在机器人训练中的应用。

北京大学和北京人工智能学院的研究人员开发了RoboBrain-Dex,这是一个通过利用MANUS数据手套来克服这些数据收集挑战的灵巧手操作的突破性视觉-语言-动作模型。其工作展示了高保真手部追踪如何实现大规模、多源的自我中心数据集的创建,这些数据集将人类和机器人操作紧密联系在一起。

便携式、高保真大规模数据收集

RoboBrain-Dex 研究团队构建了Ego Atlas,一个综合的多源自我中心数据集,将人类和机器人操作数据统一在一个动作空间下。其数据收集基础设施的核心:MANUS Quantum Metagloves 可捕捉每只手的所有25个手关键点的精确3D位置。

与受限于捕捉体积和遮挡问题的基于相机或VR追踪系统不同,MANUS手套追踪系统 实现了便携、随时随地的动作捕捉。结合VIVE追踪器进行6自由度手腕姿态追踪,该系统提供了手部定位,同时保持指尖级的精度。这种方法消除了视角依赖性,并能够在各种真实环境下收集数据,这对于构建用于稳定的VLA模型训练所需的规模和多样化的数据集至关重要。

从人类演示到机器人控制

由MANUS手套捕获的高保真运动数据在RoboBrain-Dex管道中起到了双重作用。对于人类演示,手套记录了自然的操纵行为,为学习机器人动作提供了丰富的先验知识。对于机器人远程操作,相同的手套追踪系统实现了精确控制:通过逆运动学将手腕姿势转换为机器人手臂配置,而指尖轨迹通过基于IK的重新目标映射到灵巧手关节空间。

这种无缝的人机翻译对于收集补充RoboBrain-Dex人类数据集的机器人演示数据至关重要。研究人员成功地将这种远程控制方法应用于配备Inspire 6-DoF灵巧手的Unitree G1人形机器人上,收集了高质量的多种操作任务演示数据。

推动该领域发展的成果

基于由MANUS手套支持的多源第一人称数据,RoboBrain-Dex在六个真实世界的灵巧操作任务中实现了超高的平均成功率。该模型在分布外场景中表现出色。

RoboBrain-Dex模型代表了一个重要的转变,通过数据采集设备MANUS的毫米级手部追踪精度和便携、可扩展的部署训练机器人灵巧手更加贴合真实人类操作。随着具身人工智能继续向人类水平的操纵能力发展,高保真第一人称数据采集设备仍然是弥合人类灵巧度与机器人智能之间差距的基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 13:03:52

BAAI/bge-m3实战教程:智能邮件分类系统

BAAI/bge-m3实战教程:智能邮件分类系统 1. 引言 在现代企业环境中,每天都会产生大量的电子邮件,涵盖客户咨询、内部沟通、技术支持、产品反馈等多个类别。手动对这些邮件进行分类不仅效率低下,而且容易出错。为了解决这一问题&a…

作者头像 李华
网站建设 2026/4/17 13:33:01

UNet人像卡通化比赛策划:AI艺术创作大赛构想

UNet人像卡通化比赛策划:AI艺术创作大赛构想 1. 赛事背景与技术驱动 近年来,人工智能在图像生成与风格迁移领域的突破不断推动创意表达的边界。基于UNet架构的人像卡通化技术,凭借其强大的特征提取与多尺度融合能力,已成为AI艺术…

作者头像 李华
网站建设 2026/4/13 9:09:31

Keil5新建工程深度剖析:理解底层结构设置

深入Keil5工程创建:从点击到理解的蜕变之旅你有没有过这样的经历?在开发STM32项目时,点开Keil5,一路“Next”下来新建工程,代码编译通过、下载运行正常,心里正暗自庆幸效率高。可突然某天换了个芯片型号&am…

作者头像 李华
网站建设 2026/4/18 5:37:19

SGLang企业部署安全策略:网络隔离与权限控制实战

SGLang企业部署安全策略:网络隔离与权限控制实战 1. 引言 随着大模型在企业级应用中的广泛落地,如何安全、高效地部署推理服务成为工程团队关注的核心问题。SGLang作为一款专注于提升大模型推理效率的框架,凭借其独特的架构设计&#xff0c…

作者头像 李华
网站建设 2026/4/12 23:01:53

MinerU显存不足怎么办?CPU低资源部署优化教程

MinerU显存不足怎么办?CPU低资源部署优化教程 1. 背景与挑战:智能文档理解的轻量化需求 在当前大模型快速发展的背景下,视觉多模态模型广泛应用于文档解析、表格识别和学术论文理解等场景。然而,大多数高性能模型依赖于高显存GP…

作者头像 李华
网站建设 2026/4/17 14:18:48

Hunyuan-MT-7B-WEBUI体验报告:2块钱玩转专业级翻译

Hunyuan-MT-7B-WEBUI体验报告:2块钱玩转专业级翻译 你是不是也遇到过这种情况:想把一段外文资料翻译成中文,或者把中文内容精准地翻成英文发给国外朋友,但市面上的免费翻译工具总是“词不达意”?DeepL确实不错&#x…

作者头像 李华