news 2026/4/18 10:04:06

RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

今天,RDT团队正式发布RDT2,作为RDT-1B的续作,是首个能在未见过的机器人本体上实现零样本部署的基础模型,可执行拾取、放置、按压、擦拭等简单开放词汇任务。这次更是多方面发力:

硬件重新设计:通过采用更高强度材料和更精准的跟踪方法,对UMI硬件进行了重新设计,确保其在大规模数据收集中保持可靠。

大规模多样化数据:采集了超过10,000小时的人类操作视频,涵盖100多种不同的室内场景,覆盖了夹爪可执行的大部分家庭任务。

视觉语言动作预训练:采用残差向量量化(Residual VQ)作为动作tokenizer,在UMI数据集上对Qwen2.5-VL-7B-Instruct进行预训练,使其具备了卓越的指令跟随能力。

扩散蒸馏技术:以流匹配损失训练RDT模型作为动作专家,随后将其蒸馏为单步生成器,实现了超高速推理。

目前,已开源RDT2-VQ和RDT2-FM的代码与权重。包括其他模型的数据、代码和权重在内的其余组件也将于近期发布。

论文名称:RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

论文链接:https://arxiv.org/pdf/2602.03310

项目链接:https://rdt-robotics.github.io/rdt2/

原文链接:RDT2发布,叠衣服成功率爆拉了pi0.5 40%!全球首个在未见过的本体上实现零样本部署

RDT2的愿景

通向具身超级智能的道路需要全新的范式。即使质量最高、能完全弥合本体差异的遥操作系统,仍存在显著缺陷:成本高昂且不具备可移植性。在获取多样化场景和任务数据方面存在困难,而这恰恰是训练通用模型所必需的。

RDT2的愿景是突破这些限制,设想未来将构建于可穿戴系统之上,在全球范围内无缝捕捉人类活动的丰富性。这种方法不仅能收集数据,更能精确映射我们与物理世界交互的本质结构,为具身超级智能奠定关键基础。

UMI Hardware

初代UMI采用3D打印制造,其结构强度不足以支撑长期高频数据采集。为解决这一局限,重新设计了机械结构。新款产品采用坚固的尼龙66与玻璃纤维复合材料,通过数控精密加工制成。我们摒弃了原先在无纹理室内环境中经常失效的SLAM跟踪方案,转而采用基于红外光的定位系统来追踪末端执行器的六自由度位姿。

由于硬件为机器人与人类提供了统一的末端执行器接口,本体差异被降至最低。因此,基于此类UMI数据训练的模型能够零样本部署到任何机械臂上。无需遥操作系统,无需重新采集人类数据,也无需微调模型,真正实现即插即用。只需:购买指定型号的摄像头与夹爪,使用配套的法兰与3D打印相机支架进行安装,并对齐工具中心点坐标系即可。

数据集

RDT团队生产了近100套UMI设备,并将其部署到100多个真实家庭与办公场景中进行数据采集。共收集了超过10,000小时的操作数据,涵盖了绝大多数常见的人类操作任务。得益于硬件的高度便携性与低成本特性,能够以约十分之一的成本和五倍于遥操作系统的速度完成同等规模的数据采集。

以下是数据集中部分片段的可视化展示:

训练阶段

训练分为3个阶段:

1)stage1

第一阶段,在纯UMI数据集(即1万小时UMI数据)上训练了Qwen2.5-VL-7B-Instruct–一个曾经过互联网规模文本与图像数据预训练的视觉语言模型。该模型以两张腕部视角鱼眼图像和一条语言指令作为输入,输出离散化的动作token。这些动作token是通过残差向量量化技术,从连续的机器人动作(双手的六自由度末端执行器位姿与夹爪开合度)中离散化得到的。

为稳定向量量化训练并提升码本利用率,采取了多项措施:包括因子化编码、余弦相似度计算、指数移动平均更新及codebook重启技术。同时,将旋转、平移和夹爪开合度的离散化过程解耦,实践证明这能有效避免多训练目标间的冲突。最终,将长达0.8秒(30赫兹)的动作片段高效压缩为固定长度的27个tokens。在同等精度下,该长度仅为FAST方法的1/3,离散分箱方法的1/8。因此,由于生成动作片段所需的前向传播次数更少,模型具有显著更低的延迟。

本阶段产出的模型被命名为RDT2-VQ。它需要通过自回归方式生成27个tokens(即进行27次前向传播)来获得一个动作片段。

2)stage2

在第二阶段,用4亿参数的RDT模型替代了残差向量量化模块作为动作专家,遵循π0和π0.5的最佳实践,在去噪过程中关注Qwen网络的键值对。该模型通过五次扩散去噪步骤即可生成连续的机器人动作,完全避免了离散化误差。将第一阶段产出的权重复制到Qwen网络中并冻结参数,随后采用流匹配损失对RDT模型进行训练。

本阶段产出的模型被命名为RDT2-FM。此后,将少量UR和Franka真实机器人数据与原始UMI数据进行混合后训练,得到后训练模型RDT2-FM-Post以作区分。这两个模型的速度远超第一阶段模型,仅需执行一次Qwen前向传播和五次4亿参数RDT模型的前向传播即可完成推理。

3)Stage 3

第三阶段,将RDT2-FM模型蒸馏为单步扩散策略且未出现性能损失,此过程中Qwen网络始终保持冻结状态。该模型能够通过单次扩散步骤直接将纯噪声映射为机器人动作,其机制类似于生成对抗网络。

得益于高效的残差向量量化和单步生成器设计,70亿参数模型的推理速度已达到并超越了30亿参数的基线模型。本阶段产出的模型被命名为RDT2-UltraFast。该模型是目前速度最快的版本,仅需执行一次Qwen前向传播和一次4亿参数RDT模型的前向传播即可完成推理。这种超低延迟对于乒乓球对打等需要实时响应的任务至关重要。

现将RDT2系列模型说明如下:

RDT2-VQ:第一阶段成果,卓越的指令跟随能力,推理速度较慢,支持强化学习,已发布🎉
RDT2-FM:第二阶段成果,性能更优,推理速度快,暂不支持强化学习,已发布🎉
RDT2-FM-Post:第二阶段衍生产品,RDT2-FM的孪生版本,针对UR和Franka平台进行性能优化,即将发布🔜
RDT2-UltraFast:第三阶段成果,性能更佳,超高速推理,暂不支持强化学习,即将发布🔜

结果对比分析

全新训练完成的RDT2模型在完整的"4U"条件下——未见过的本体场景物体语言指令——展现出强大的零样本泛化能力。我们将此定义为相变临界点:系统行为已从狭隘的专用模式跃迁至真正的通用模式。

该系统能够接收日常开放式指令,并将抽象语言锚定在物理行为中。虽然尚未达到完美,但这个里程碑具有决定性意义:规模化发展方向已被验证正确,模型已首次展现出清晰的具身超级智能特征。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:48:29

咕噜分发——APP图标在线制作

咕噜分发(gulufenfa.com)的APP图标在线制作工具是该平台提供的一项实用功能,主要面向APP开发者、测试人员及企业用户,用于快速生成符合iOS/Android平台规范的APP图标资源包。以下是该功能的详细介绍: 一、功能定位与核…

作者头像 李华
网站建设 2026/4/17 16:50:41

小程序商城开发要点解析:从核心架构到关键功能模块

伴随着移动互联网朝着 方向发展,小程序商城已然变成零售、餐饮、本地生活等好些行业用以开展数字化转型的标准配备。和传统的独立 APP 或者 H5 页面相比较而言,小程序靠着它那“无需下载、即用即走”的轻量化特有属性,以及借助微信、支付宝等…

作者头像 李华
网站建设 2026/4/18 6:45:54

计算机PHP毕设实战-基于php+vue的动物救助网站的设计与实现基于php+vue.js流浪动物宠物领养公益网站【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 8:42:30

工业互联网平台有哪些技术支持

工业互联网平台作为支撑制造业数字化、网络化、智能化转型的新型基础设施,其技术支撑体系涵盖多个层面,以下从核心架构、关键技术、新兴技术融合三个维度展开分析:一、核心架构支撑:分层技术体系工业互联网平台通常采用边缘层、Ia…

作者头像 李华
网站建设 2026/4/18 5:41:26

[信息论与编码理论专题-16]:等概率时熵最大、编码最长;实际概率不均,熵降低,变长编码可压缩,平均码长更短。

在一个包含 N 个可能事件的系统中,当所有事件等概率发生时,系统的熵达到最大值 log 2​N ,此时对事件进行最优无损编码所需的平均码长也达到理论最大值。 而在实际系统中,事件发生的概率往往不相等;若存在较多高概率事…

作者头像 李华
网站建设 2026/4/18 1:44:39

跟AI学一手之自定义调试函数或者类

最后一招是 macos 专用的,有帮助,所以记录一下 from gevent import monkey monkey.patch_all() import signal import sys import os# 检查是否有信号处理 def debug_signal(signum, frame):print(f"收到信号 {signum},堆栈:", fi…

作者头像 李华