TRO 2026｜机器人想精准挖土，能不能先在仿真里把“土”学明白？-程序员充电站

哈喽大家好，我是疯狂读论文的戴夫。今天继续啃一篇论文。

机器人挖土这件事，听起来很朴素。

拿个铲子，插进去，往前推，再抬起来，好像就是这么几步。但真正让机器人去做，就会发现这件事一点也不简单。

沙子、土壤、颗粒物这些材料，看起来是一堆小颗粒，实际接触过程非常复杂。铲子插得深一点、角度偏一点、推得远一点，最后挖出来的坑形都可能完全不一样。

更麻烦的是，机器人一开始并不知道眼前这堆材料到底是什么状态。

沙子松不松？土壤湿不湿？密度多大？摩擦角是多少？这些参数都会直接影响挖掘结果。

这篇 TRO 2026 论文讨论的就是这个问题：

机器人能不能面对未知沙土材料，先用一次真实挖掘校准仿真，再在仿真里优化动作，最后直接到真实世界执行？

论文题目是：

DDBot: Differentiable Physics-Based Digging Robot for Unknown Granular Materials

DOI：10.1109/TRO.2025.3636815

可以理解为：

面向未知颗粒材料的可微物理挖掘机器人。

图1 DDBot 系统总览

一、这篇论文讲什么？

这篇论文研究的是granular material manipulation，颗粒材料操作。

颗粒材料在现实中非常常见，比如沙子、土壤、米粒、豆子、碎石等。机器人如果能稳定操作这类材料，在农业种植、温室管理、土壤采样、灾害救援、行星探测和自动化挖掘中都有价值。

但这类任务很难。

颗粒材料不是刚体，受力后会流动、堆积、坍塌、分散。机器人看到的只是表面点云，真正的内部状态很难直接观测。

这篇文章聚焦的是一个更具体的任务：

小尺度、高精度挖掘。

也就是让 UR5e 机械臂拿着铲子，在一个装有沙或土的小盒子里，挖出指定位置、指定深度、指定形状的坑。

这篇文章的核心，是把“挖土”变成一个可微物理仿真驱动的系统辨识与技能优化问题。

作者提出的系统叫DDBot，Differentiable Digging Robot。

二、现有方法卡在哪里？

颗粒材料操作以前也有人做，但很多方法都有明显限制。

强化学习可以通过试错学动作，但它通常很吃数据。对于真实机器人挖沙土来说，大量试错会很慢，实验环境也很难反复恢复到完全一致。

MPC 或进化算法可以在仿真里搜索动作，但搜索效率有限。如果只看最终形状差异，方法很容易不知道“为什么这个动作导致了这个坑形”。

还有一些方法会把颗粒材料简化成二维形状、少量粒子或高度图。这样计算会更快，但真实接触动力学会被弱化。

所以这篇论文选择了一条更物理的路线：

保留颗粒材料动力学，同时让仿真过程可微，从结果误差中直接反推材料参数和动作参数。

这里的关键词是differentiable physics，可微物理。

如果仿真器是可微的，系统就可以知道：当前挖出来的结果离目标差多少，以及动作参数该往哪个方向改。

三、作者怎么解决？

DDBot 的流程可以拆成五步。

第一步：真实机器人先做一次挖掘，拍下结果

作者使用 UR5e 机械臂，末端装一个 3D 打印铲子，在盒子里的沙或土上执行一次挖掘操作。

操作完成后，Zivid 3D 相机会采集沙土表面的点云。

也就是说，系统先拿到一个真实世界里的结果：

机器人怎么挖，沙土最后变成什么形状。

这一步的作用，是给仿真对齐提供真实参照。

第二步：在仿真里复现同样的挖掘过程

接下来，作者在仿真环境中复现这次挖掘。

它使用的是MLS-MPM 颗粒材料仿真，也就是 Material Point Method 的一种。

简单理解，沙土被表示成很多粒子，同时借助背景网格计算这些粒子的运动、变形、接触和流动。

这样做的目的，是让仿真尽可能接近真实沙土的物理行为。

真实机器人负责提供结果，仿真器负责解释这个结果是怎么来的。

第三步：反推材料参数，让仿真里的“土”更像真实的“土”

一开始，仿真里的沙土参数不一定准确。

比如这堆土到底有多硬、多密、多容易滑动，系统并不知道。

所以作者把材料参数也当成待优化变量，包括：

Young’s modulus，杨氏模量；
Poisson’s ratio，泊松比；
density，材料密度；
sand friction angle，沙土摩擦角。

系统会比较两件事：

真实机器人挖完后的点云；
仿真机器人挖完后的点云。

如果两者差得很远，就说明仿真材料参数还不对。因为整个仿真过程是可微的，误差可以反向传播到材料参数上，再用梯度下降更新这些参数。

这个过程叫：

differentiable system identification，可微系统辨识。

通俗说，就是机器人通过一次真实挖掘，把仿真里的沙土参数“调像”真实材料。

第四步：优化挖掘动作，但不直接优化每一帧

有了比较准确的仿真环境后，系统开始优化挖掘动作。

这里作者没有直接优化机器人每一帧该怎么动。

原因很简单：如果直接优化整条轨迹，变量太多，长时程梯度也容易不稳定。

作者设计了一个低维的digging skill，挖掘技能。

这个技能只有 5 个参数：

横向移动多少；
铲子旋转多少；
插入多深；
往哪个角度推；
推多远。

系统只需要优化这 5 个参数，就能自动生成一整条完整挖掘轨迹。

这一步的关键，是把复杂轨迹优化压缩成低维技能参数优化。

这不仅减少了搜索空间，也让动作更接近人类对“挖掘”的理解。

图2 参数化挖掘技能示意图

第五步：把仿真里优化出的动作直接部署到真实机器人

最后，DDBot 会把仿真中优化得到的挖掘技能参数，转换成真实 UR5e 机械臂可以执行的运动轨迹。

论文强调，这一步是zero-shot sim-to-real。

也就是动作在仿真里优化完成后，不再经过真实世界微调，直接交给真实机器人执行。

如果真实机器人挖出来的形状接近目标，就说明前面的材料辨识和技能优化确实有效。

所以 DDBot 的整体逻辑可以概括成一句话：

先用一次真实挖掘校准仿真里的材料，再在仿真里优化低维挖掘技能，最后把动作零样本部署到真实机器人。

四、关键设计为什么重要？

这篇论文里有三个设计很值得注意。

1. 可微仿真器

作者使用 MPM 来模拟沙土，又让仿真过程支持自动微分。

这意味着系统不只是在仿真里“试动作”，还可以从误差中计算梯度，知道参数应该怎么改。

这比盲目试错更直接，也更适合需要高精度控制的物理任务。

2. 参数化挖掘技能

直接优化长轨迹很难，尤其是在颗粒材料这种复杂动力学任务里。

DDBot 把挖掘动作拆成“移动—插入—推动—抬起”几个阶段，并用 5 个参数控制整体动作。

这样一来，优化问题从高维轨迹空间变成了低维技能空间。

3. 梯度裁剪和线搜索

可微物理并不天然稳定。

颗粒数量多、仿真步数长、接触过程复杂，梯度很容易爆炸；点云和高度图误差也可能很崎岖，优化时容易一步迈太大。

作者使用了两个工程处理：

gradient clipping，梯度裁剪：限制梯度尺度，避免数值崩掉。
line search，线搜索：每次更新前尝试多个步长，选择效果更好的方向。

这说明可微物理真正落地时，数值稳定性和优化策略同样重要。

五、实验怎么验证？

作者搭建了真实机器人挖掘平台。

硬件包括：

UR5e 机械臂；
3D 打印铲子；
装有沙或土的木盒；
Zivid One+ 3D 相机；
对应的仿真盒子和铲子模型。

图3 真实机器人挖掘平台

实验主要有三类。

第一类是系统辨识实验。
作者让真实机器人执行固定动作，然后通过真实点云和仿真点云的差异，优化沙土材料参数。

第二类是挖掘技能优化实验。
作者手动创建不同目标坑形，让系统在仿真中优化 5 个技能参数，生成挖掘动作。

图4 挖掘目标形状可视化

第三类是对比和消融实验。
论文把 DDBot 和直接轨迹优化、CMA-MAE、目标条件 SAC 强化学习等方法进行了比较，同时分析了示范初始化、梯度裁剪和线搜索等模块的作用。

六、实验结果说明什么？

结果可以概括成三点。

第一，DDBot 能较快完成未知材料辨识和技能优化。

论文结果显示，DDBot 可以在 5 到 20 分钟内完成材料动力学辨识和挖掘技能优化。对于真实机器人任务来说，这个时间已经具备一定实用性。

第二，仿真优化出的动作可以直接真实执行。

作者将仿真中优化好的技能直接部署到 UR5e 真实机器人上，不再做额外真实世界微调。真实挖掘结果能够接近目标形状，说明可微系统辨识和技能优化确实缩小了 sim-to-real 差距。

第三，技能优化比直接优化轨迹更稳。

直接优化每一帧动作时，变量太多，长时程梯度容易不稳定。DDBot 通过低维技能参数，把问题变得更容易优化，也更容易解释。

这篇文章最有价值的判断是：有些机器人任务不一定要先上强化学习，物理模型和梯度优化可能更高效。

七、论文画像

应用范围：主要面向颗粒材料操作、农业机器人、土壤采样、小尺度挖掘和非刚体机器人操作，应用范围偏垂直，但工程价值明确。

复现友好度：复现门槛较高。完整复现需要机械臂、3D 相机、可微 MPM 仿真器、GPU 加速和真实沙土实验平台。

方法新颖度：亮点在于把可微物理仿真、系统辨识、参数化挖掘技能和梯度优化结合到未知颗粒材料真实挖掘任务中。

思维借鉴度：很适合学习如何把复杂物理任务转化成低维技能优化问题，也适合借鉴“系统辨识 + 技能优化 + 真实部署”的论文结构。

技术完整度：从物理建模、可微仿真、技能设计、梯度稳定处理、系统辨识到真实机器人验证，技术链条完整。

实验充分性：实验覆盖沙和土两类材料、多个目标形状、真实机器人零样本部署、基准对比和消融分析，支撑较充分。

最后总结

这篇 TRO 论文的核心价值在于：

它把机器人挖土这种复杂颗粒材料操作，转化成了一个可微物理驱动的系统辨识与技能优化问题。

这篇文章最值得学的地方有三个。

第一，问题定义很具体。
作者没有泛泛地说“机器人操作颗粒材料”，而是聚焦小尺度、高精度、未知材料挖掘任务。

第二，流程设计很清楚。
真实挖一次，仿真复现一次，反推材料参数，再优化挖掘技能，最后直接部署到真实机器人。

第三，工程判断很实用。
面对复杂物理任务，低维技能参数、可微仿真和梯度优化组合起来，可能比高维轨迹搜索和端到端学习更高效。

记住一句话：

机器人想精准挖土，关键不只是会挥铲子，还要先把“这堆土到底怎么动”学明白。

TRO 2026｜机器人想精准挖土，能不能先在仿真里把“土”学明白？