哈喽大家好,我是疯狂读论文的戴夫。今天继续啃一篇论文。
机器人挖土这件事,听起来很朴素。
拿个铲子,插进去,往前推,再抬起来,好像就是这么几步。但真正让机器人去做,就会发现这件事一点也不简单。
沙子、土壤、颗粒物这些材料,看起来是一堆小颗粒,实际接触过程非常复杂。铲子插得深一点、角度偏一点、推得远一点,最后挖出来的坑形都可能完全不一样。
更麻烦的是,机器人一开始并不知道眼前这堆材料到底是什么状态。
沙子松不松?土壤湿不湿?密度多大?摩擦角是多少?这些参数都会直接影响挖掘结果。
这篇 TRO 2026 论文讨论的就是这个问题:
机器人能不能面对未知沙土材料,先用一次真实挖掘校准仿真,再在仿真里优化动作,最后直接到真实世界执行?
论文题目是:
DDBot: Differentiable Physics-Based Digging Robot for Unknown Granular Materials
DOI:10.1109/TRO.2025.3636815
可以理解为:
面向未知颗粒材料的可微物理挖掘机器人。
图1 DDBot 系统总览
一、这篇论文讲什么?
这篇论文研究的是granular material manipulation,颗粒材料操作。
颗粒材料在现实中非常常见,比如沙子、土壤、米粒、豆子、碎石等。机器人如果能稳定操作这类材料,在农业种植、温室管理、土壤采样、灾害救援、行星探测和自动化挖掘中都有价值。
但这类任务很难。
颗粒材料不是刚体,受力后会流动、堆积、坍塌、分散。机器人看到的只是表面点云,真正的内部状态很难直接观测。
这篇文章聚焦的是一个更具体的任务:
小尺度、高精度挖掘。
也就是让 UR5e 机械臂拿着铲子,在一个装有沙或土的小盒子里,挖出指定位置、指定深度、指定形状的坑。
这篇文章的核心,是把“挖土”变成一个可微物理仿真驱动的系统辨识与技能优化问题。
作者提出的系统叫DDBot,Differentiable Digging Robot。
二、现有方法卡在哪里?
颗粒材料操作以前也有人做,但很多方法都有明显限制。
强化学习可以通过试错学动作,但它通常很吃数据。对于真实机器人挖沙土来说,大量试错会很慢,实验环境也很难反复恢复到完全一致。
MPC 或进化算法可以在仿真里搜索动作,但搜索效率有限。如果只看最终形状差异,方法很容易不知道“为什么这个动作导致了这个坑形”。
还有一些方法会把颗粒材料简化成二维形状、少量粒子或高度图。这样计算会更快,但真实接触动力学会被弱化。
所以这篇论文选择了一条更物理的路线:
保留颗粒材料动力学,同时让仿真过程可微,从结果误差中直接反推材料参数和动作参数。
这里的关键词是differentiable physics,可微物理。
如果仿真器是可微的,系统就可以知道:当前挖出来的结果离目标差多少,以及动作参数该往哪个方向改。
三、作者怎么解决?
DDBot 的流程可以拆成五步。
第一步:真实机器人先做一次挖掘,拍下结果
作者使用 UR5e 机械臂,末端装一个 3D 打印铲子,在盒子里的沙或土上执行一次挖掘操作。
操作完成后,Zivid 3D 相机会采集沙土表面的点云。
也就是说,系统先拿到一个真实世界里的结果:
机器人怎么挖,沙土最后变成什么形状。
这一步的作用,是给仿真对齐提供真实参照。
第二步:在仿真里复现同样的挖掘过程
接下来,作者在仿真环境中复现这次挖掘。
它使用的是MLS-MPM 颗粒材料仿真,也就是 Material Point Method 的一种。
简单理解,沙土被表示成很多粒子,同时借助背景网格计算这些粒子的运动、变形、接触和流动。
这样做的目的,是让仿真尽可能接近真实沙土的物理行为。
真实机器人负责提供结果,仿真器负责解释这个结果是怎么来的。
第三步:反推材料参数,让仿真里的“土”更像真实的“土”
一开始,仿真里的沙土参数不一定准确。
比如这堆土到底有多硬、多密、多容易滑动,系统并不知道。
所以作者把材料参数也当成待优化变量,包括:
Young’s modulus,杨氏模量;
Poisson’s ratio,泊松比;
density,材料密度;
sand friction angle,沙土摩擦角。
系统会比较两件事:
真实机器人挖完后的点云;
仿真机器人挖完后的点云。
如果两者差得很远,就说明仿真材料参数还不对。因为整个仿真过程是可微的,误差可以反向传播到材料参数上,再用梯度下降更新这些参数。
这个过程叫:
differentiable system identification,可微系统辨识。
通俗说,就是机器人通过一次真实挖掘,把仿真里的沙土参数“调像”真实材料。
第四步:优化挖掘动作,但不直接优化每一帧
有了比较准确的仿真环境后,系统开始优化挖掘动作。
这里作者没有直接优化机器人每一帧该怎么动。
原因很简单:如果直接优化整条轨迹,变量太多,长时程梯度也容易不稳定。
作者设计了一个低维的digging skill,挖掘技能。
这个技能只有 5 个参数:
横向移动多少;
铲子旋转多少;
插入多深;
往哪个角度推;
推多远。
系统只需要优化这 5 个参数,就能自动生成一整条完整挖掘轨迹。
这一步的关键,是把复杂轨迹优化压缩成低维技能参数优化。
这不仅减少了搜索空间,也让动作更接近人类对“挖掘”的理解。
图2 参数化挖掘技能示意图
第五步:把仿真里优化出的动作直接部署到真实机器人
最后,DDBot 会把仿真中优化得到的挖掘技能参数,转换成真实 UR5e 机械臂可以执行的运动轨迹。
论文强调,这一步是zero-shot sim-to-real。
也就是动作在仿真里优化完成后,不再经过真实世界微调,直接交给真实机器人执行。
如果真实机器人挖出来的形状接近目标,就说明前面的材料辨识和技能优化确实有效。
所以 DDBot 的整体逻辑可以概括成一句话:
先用一次真实挖掘校准仿真里的材料,再在仿真里优化低维挖掘技能,最后把动作零样本部署到真实机器人。
四、关键设计为什么重要?
这篇论文里有三个设计很值得注意。
1. 可微仿真器
作者使用 MPM 来模拟沙土,又让仿真过程支持自动微分。
这意味着系统不只是在仿真里“试动作”,还可以从误差中计算梯度,知道参数应该怎么改。
这比盲目试错更直接,也更适合需要高精度控制的物理任务。
2. 参数化挖掘技能
直接优化长轨迹很难,尤其是在颗粒材料这种复杂动力学任务里。
DDBot 把挖掘动作拆成“移动—插入—推动—抬起”几个阶段,并用 5 个参数控制整体动作。
这样一来,优化问题从高维轨迹空间变成了低维技能空间。
3. 梯度裁剪和线搜索
可微物理并不天然稳定。
颗粒数量多、仿真步数长、接触过程复杂,梯度很容易爆炸;点云和高度图误差也可能很崎岖,优化时容易一步迈太大。
作者使用了两个工程处理:
gradient clipping,梯度裁剪:限制梯度尺度,避免数值崩掉。
line search,线搜索:每次更新前尝试多个步长,选择效果更好的方向。
这说明可微物理真正落地时,数值稳定性和优化策略同样重要。
五、实验怎么验证?
作者搭建了真实机器人挖掘平台。
硬件包括:
UR5e 机械臂;
3D 打印铲子;
装有沙或土的木盒;
Zivid One+ 3D 相机;
对应的仿真盒子和铲子模型。
图3 真实机器人挖掘平台
实验主要有三类。
第一类是系统辨识实验。
作者让真实机器人执行固定动作,然后通过真实点云和仿真点云的差异,优化沙土材料参数。
第二类是挖掘技能优化实验。
作者手动创建不同目标坑形,让系统在仿真中优化 5 个技能参数,生成挖掘动作。
图4 挖掘目标形状可视化
第三类是对比和消融实验。
论文把 DDBot 和直接轨迹优化、CMA-MAE、目标条件 SAC 强化学习等方法进行了比较,同时分析了示范初始化、梯度裁剪和线搜索等模块的作用。
六、实验结果说明什么?
结果可以概括成三点。
第一,DDBot 能较快完成未知材料辨识和技能优化。
论文结果显示,DDBot 可以在 5 到 20 分钟内完成材料动力学辨识和挖掘技能优化。对于真实机器人任务来说,这个时间已经具备一定实用性。
第二,仿真优化出的动作可以直接真实执行。
作者将仿真中优化好的技能直接部署到 UR5e 真实机器人上,不再做额外真实世界微调。真实挖掘结果能够接近目标形状,说明可微系统辨识和技能优化确实缩小了 sim-to-real 差距。
第三,技能优化比直接优化轨迹更稳。
直接优化每一帧动作时,变量太多,长时程梯度容易不稳定。DDBot 通过低维技能参数,把问题变得更容易优化,也更容易解释。
这篇文章最有价值的判断是:有些机器人任务不一定要先上强化学习,物理模型和梯度优化可能更高效。
七、论文画像
应用范围:主要面向颗粒材料操作、农业机器人、土壤采样、小尺度挖掘和非刚体机器人操作,应用范围偏垂直,但工程价值明确。
复现友好度:复现门槛较高。完整复现需要机械臂、3D 相机、可微 MPM 仿真器、GPU 加速和真实沙土实验平台。
方法新颖度:亮点在于把可微物理仿真、系统辨识、参数化挖掘技能和梯度优化结合到未知颗粒材料真实挖掘任务中。
思维借鉴度:很适合学习如何把复杂物理任务转化成低维技能优化问题,也适合借鉴“系统辨识 + 技能优化 + 真实部署”的论文结构。
技术完整度:从物理建模、可微仿真、技能设计、梯度稳定处理、系统辨识到真实机器人验证,技术链条完整。
实验充分性:实验覆盖沙和土两类材料、多个目标形状、真实机器人零样本部署、基准对比和消融分析,支撑较充分。
最后总结
这篇 TRO 论文的核心价值在于:
它把机器人挖土这种复杂颗粒材料操作,转化成了一个可微物理驱动的系统辨识与技能优化问题。
这篇文章最值得学的地方有三个。
第一,问题定义很具体。
作者没有泛泛地说“机器人操作颗粒材料”,而是聚焦小尺度、高精度、未知材料挖掘任务。
第二,流程设计很清楚。
真实挖一次,仿真复现一次,反推材料参数,再优化挖掘技能,最后直接部署到真实机器人。
第三,工程判断很实用。
面对复杂物理任务,低维技能参数、可微仿真和梯度优化组合起来,可能比高维轨迹搜索和端到端学习更高效。
记住一句话:
机器人想精准挖土,关键不只是会挥铲子,还要先把“这堆土到底怎么动”学明白。