news 2026/6/10 19:48:51

【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

快速了解部分

基础信息(英文):

  1. 题目:

  2. 时间年月:2025年12月

  3. 机构名:Peking University (CFCS, School of Computer Science), PKU-AgiBot Lab, AgiBot

  4. 3个英文关键词:Robotic Demonstration Generation, Spatial Generalization, Data Efficiency

1句话通俗总结本文干了什么事情

提出一种名为Real2Edit2Real的框架,通过3D控制界面连接3D可编辑性与2D视觉数据,无需仿真引擎和数字资产,从少量RGB机器人演示中生成多样化、多视图且物理一致的操作演示视频,大幅提升数据效率并解决空间泛化难题。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 机器人演示数据收集成本高,尤其是覆盖多样化空间配置以实现空间泛化时,需大量数据支撑;
  2. 现有仿真驱动方法存在Sim2Real视觉与物理鸿沟,且依赖场景/物体资产,难以直接增强真实数据;
  3. 基于3D点云的方法依赖深度传感器,不兼容主流多视图RGB输入的VLA范式,无法实现纹理级增强;
  4. 视频生成类方法仅优化视觉纹理,无法提升物体空间分布和机器人轨迹的多样性。

核心方法:关键技术、模型或研究设计(简要)

由三个核心模块构成:1. 度量尺度几何重建(混合真实与仿真数据微调VGGT,输出深度图和相机姿态);2. 深度可靠空间编辑(点云编辑+轨迹规划+机器人姿态校正,生成物理一致的深度信号);3. 3D控制视频生成(双注意力机制+深度控制接口+平滑物体重定位,合成多视图一致的操作视频)。

深入了解部分

相比前人创新在哪里

  1. 无仿真依赖:直接基于原始RGB演示生成数据,无需仿真引擎和数字资产,解决可扩展性问题;
  2. 双维度增强:同时实现物体空间轨迹多样化和纹理编辑,兼容主流VLA(视觉-语言-动作)训练范式;
  3. 几何一致性保障:提出混合训练范式提升重建准确性,通过机器人姿态校正确保运动学一致性,避免刚性体伪影;
  4. 极致数据效率:仅需1-5个源演示即可生成等效甚至优于50个真实演示的训练效果,数据效率提升10-50倍;
  5. 灵活扩展性:支持物体高度、背景纹理等扩展编辑,具备统一数据生成框架潜力。

解决方法/算法的通俗解释,以及具体做法

通俗解释

先“还原场景结构”:从机器人多个视角的RGB图像中,重建出真实尺度的3D场景和物体形状;再“编辑运动轨迹”:在3D空间中调整物体位置、规划新的机器人操作路径,同时修正机器人姿态确保动作合理;最后“生成真实视频”:以3D深度信息为核心,结合动作、边缘等线索,生成多视角同步、视觉逼真的操作演示视频。

具体做法
  1. 度量尺度几何重建:混合Agibot-DigitalWorld仿真数据(40K帧)和真实机器人深度数据(100K帧),全参数微调VGGT模型,通过相机损失、深度损失和点图损失优化,输出准确的深度图和相机姿态;
  2. 深度可靠空间编辑:将演示拆分为运动段(自由移动)和技能段(物体交互),随机采样物体变换矩阵,对技能段机器人点云应用相同变换,运动段通过Curobo运动规划生成新轨迹;结合背景修复和深度滤波处理噪声,通过逆运动学(IK)校正机器人姿态;
  3. 3D控制视频生成:基于GE-Sim(Cosmos-Predict2B)微调,采用双注意力机制(视图内注意力+跨视图注意力)保障多视图一致性;以深度为核心控制信号,辅以Canny边缘、动作和射线图;通过平滑插值物体平移/旋转,实现自然的物体重定位。

基于前人的哪些方法

  1. 几何重建:VGGT(Visual Geometry Grounded Transformer)—— 作为基础模型进行微调,解决稀疏视图重建问题;
  2. 视频生成:GE-Sim、Cosmos-Predict2B—— 作为 backbone 进行微调,保障视频生成的视觉质量;
  3. 轨迹生成:MimicGen系列—— 借鉴轨迹分割(运动段/技能段)的思路,适配物体交互逻辑;
  4. 目标分割:Grounded-SAM—— 用于分离前景物体和机器人手臂,支撑点云编辑;
  5. 运动规划:Curobo—— 用于生成运动段的机器人轨迹,确保路径可行性;
  6. 图像编辑:SeedEdit 3.0—— 用于背景修复,填补深度图中的缺失区域。

实验设置、数据、评估方式

实验设置
  • 硬件:Agibot Genie G1机器人,头部+左右手腕3个RGB相机,50cm×40cm工作台;
  • 政策:两种VLA政策(Go-1冻结骨干微调动作专家,π₀.₅全参数微调)+ Diffusion Policy(ViT-S编码器+DINO-v3预训练权重);
  • 训练配置:8张H100 GPU,几何重建训练150K迭代(20小时),视频生成训练20K迭代(60小时),单段20秒30FPS视频生成耗时48.6秒。
数据
  • 训练数据:几何重建(40K仿真帧+100K真实帧),视频生成(7K episodes,64个任务,来自Agibot-World);
  • 测试任务:4个真实世界操作任务(单臂到双臂)—— Mug to Basket(握杯入篮)、Pour Water(倒水)、Lift Box(提箱)、Scan Barcode(扫码);
  • 生成设置:从1-5个源演示中随机采样,生成200个含新颖物体配置的演示,评估时物体随机放置于工作台。
评估方式
  1. 主评估指标:政策在真实机器人上的操作成功率(任务完成次数/总尝试次数,每组20次尝试);
  2. 扩展评估:高度泛化(桌面vs平台高度)、纹理泛化(5种桌面纹理);
  3. 消融实验:验证几何重建质量、机器人姿态校正(RPC)、平滑物体重定位(SOR)、控制条件(深度/边缘)的必要性;
  4. 定性评估:生成视频的多视图一致性、视觉真实性、物体交互合理性。

提到的同类工作

  1. 仿真驱动演示生成:MimicGen、SkillMimicGen、Re3Sim;
  2. 3D高斯 splatting 相关:RoboSplat、Real2Render2Real;
  3. 3D点云编辑生成:DemoGen、R2RGen、UMIGen;
  4. 视频生成类增强:RoboTransfer、MVAug、EgoDemoGen;
  5. 政策模型:Diffusion Policy、Go-1、π₀.₅、OpenVLA。

和本文相关性最高的3个文献

  1. Xue, Z., et al. (2025). DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning. Robotics: Science and Systems (RSS)—— 同类3D点云编辑生成方法,但不支持RGB输入和VLA范式,是本文核心对比基准;
  2. Yu, J., et al. (2025). Real2render2real: Scaling robot data without dynamics simulation or robot hardware. Annual Conference on Robot Learning (CoRL)—— 从人类视频合成演示的代表性工作,依赖3D高斯 splatting 但存在视觉鸿沟,本文针对性解决该问题;
  3. Wang, J., et al. (2025). VGGT: Visual geometry grounded transformer. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)—— 本文几何重建模块的基础模型,通过混合数据微调实现机器人场景适配,是核心技术支撑。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:58:03

Open-AutoGLM安全性能实测:3轮红队渗透攻击中暴露的4个关键修复建议

第一章:Open-AutoGLM安全性如何Open-AutoGLM 作为一款开源的自动化代码生成与语言建模工具,在设计上高度重视系统安全与用户数据保护。其安全性不仅体现在模型推理阶段的数据隔离机制,还涵盖部署架构中的权限控制与输入验证策略。核心安全机制…

作者头像 李华
网站建设 2026/6/10 10:50:14

你的Wi-Fi,正在被谁“共享”?

深夜加班回家,手机弹出流量超额预警,你愣住——这个月明明大部分时间都在用Wi-Fi。点开热点连接列表,赫然发现三个陌生设备名称。或许是对面楼的租客,或许是楼下咖啡馆的陌生人,他们正悄然分享着你的网络带宽&#xff…

作者头像 李华
网站建设 2026/6/10 0:41:11

Open-AutoGLM到底如何工作?20年架构师带你逐行拆解源码逻辑

第一章:Open-AutoGLM实现原理Open-AutoGLM 是一个基于开源大语言模型(LLM)的自动化推理框架,旨在通过动态提示生成与上下文感知机制提升模型在复杂任务中的表现。其核心思想是将用户输入的任务分解为多个子步骤,并利用…

作者头像 李华
网站建设 2026/6/10 10:50:11

自己怎么快速降论文AI率?从90%降至10%的保姆级攻略(本人实测)

说实话,谁没经历过被知网、维普那些冰冷的红色数字支配的恐惧? 2025年的检测算法早就升级了,它们查的不是简单的关键词重复,而是更深层的逻辑关系。如果你不懂核心逻辑,盲目改词,只会越改越乱,…

作者头像 李华