削皮、切片、探测表面，瑞士团队用'扩散场'让机器人学会操作曲面物体

发布时间：2026-05-05来源：机器人大讲堂

洗碗、削水果、切香蕉——这些人类日常操作对机器人来说一直是个难题。问题出在哪？曲面物体没有统一的参考坐标系。在平面上，机器人只需要简单的“上下左右”就能完成任务，但换成弯曲的黄瓜或者不规则的梨，“朝向表面”这个方向在每个位置都不一样。

瑞士洛桑联邦理工学院（EPFL）和Idiap研究所的团队最近在Science Robotics上发了篇论文，提出用“扩散方向场”（Diffused Orientation Fields）来解决这个问题。简单说，就是给机器人的整个工作空间铺上一层平滑变化的局部坐标系，让它无论在哪个位置都知道“什么是沿着表面”“什么是靠近物体”。

01.

点云+偏微分方程，50个变形梨验证跨形状能力

传统方法要么依赖干净的三维网格模型，要么需要大量训练数据。这个团队走了另一条路：直接从深度相机采集的点云数据出发，用偏微分方程（PDE）中的扩散方程来计算方向场。具体来说，他们在物体表面标记几个关键点（keypoints），比如香蕉的两端。然后通过求解扩散方程，让这些关键点的方向信息像热量一样在表面“扩散”开来，形成平滑的方向场。这个过程不需要完整的网格，点云就够了。

更关键的是，他们还把表面的方向场延伸到了整个三维空间。这用到了一个叫“Walk on Spheres”的蒙特卡洛方法——不需要把空间离散化成网格，直接在需要的位置查询就行。这让计算效率大幅提升，能做到实时更新。

论文里有个很硬核的对比实验。他们用YCB数据集里的梨模型，随机生成了50个变形版本——有的被拉长，有的被压扁，有的还扭曲了。然后让机器人用不同的坐标系表示方法去执行削皮任务。对比了四种baseline：单一物体坐标系、柱坐标系、球坐标系，以及多个局部坐标系。结果显示，他们的方法产生的动作轨迹标准差最小，而且在所有方向上都保持了三次削皮循环的周期性模式。更有意思的是，当他们增加局部坐标系的数量时，baseline方法的方差逐渐收敛到他们的连续方向场——这证明了他们的方法本质上是多坐标系方法的连续版本。

02.

手柄遥操作、轨迹规划、强化学习，一个表示层通吃三种控制器

这个方向场不是为某个特定控制器设计的，而是一个通用的中间表示层。论文展示了三种集成方式。

在遥操作场景里，用3DConnexion Space Mouse控制机械臂时，输入轴直接映射到局部坐标系。操作者沿着鼠标的x轴移动，机器人就沿着物体表面滑动；沿z轴移动，就靠近或远离表面。工具姿态自动对齐，操作直觉得多。

轨迹优化方面，他们用方向场定义代价函数，让优化器规划出既保持与表面距离、又能避开障碍物的轨迹。关键是可以用方向场做“warm-start"——沿着局部坐标系的x轴初始化轨迹，优化器基本一次迭代就收敛了。不用warm-start的话，至少要五六次迭代。

强化学习实验更有意思。他们在2D圆形上训练了一个到达目标并保持距离的策略，然后零样本迁移到了2D矩形和3D点云上。用全局坐标系训练的策略完全迁移不了，但用局部坐标系训练的策略直接就能用。这说明方向场提供的几何脚手架确实降低了学习难度。

03.

扩散时间参数τ：平滑度和抗噪能力的调节旋钮

真实场景里，点云数据肯定有噪声，关键点提取也不可能完美。他们做了三组受控实验：拓扑噪声（删掉一半点云，再随机挖10个5毫米的洞）、几何噪声（给点云坐标加3毫米标准差的高斯噪声）、关键点噪声（给关键点位置加20毫米标准差的噪声）。每组实验重复50次，测量生成轨迹与无噪声参考轨迹的均方根误差（RMSE）。

结果符合预期：扩散方程的平滑特性天然抑制高频噪声，扩散时间参数τ越大，方向场越平滑，对噪声的鲁棒性越强。短时间扩散会让方向场的梯度接近测地距离的梯度，保留更多局部几何细节；长时间扩散则提取物体的全局对称性，比如梨的纵向对称轴。这个参数可以根据任务需求灵活调整。

不过论文也坦诚了局限性：如果深度相机对透明、半透明或高反光物体返回的数据太差，光靠平滑是救不回来的。这时候需要配合其他传感器或者点云补全方法。这是硬件约束，不是算法本身的问题。

04.

杂乱场景也能处理，几何基元直接编码任务约束

方向场不限于单个物体。论文展示了一个杂乱场景：香蕉周围有其他物体，还有一个包围球和一个代表墙面的平面。方向场可以同时处理点云、网格和几何基元（sphere、plane、capsule等）。更巧妙的是，几何基元可以直接编码任务约束。

比如舀东西的任务：用一个平面约束工具保持水平（防止洒出来），用一条直线定义提升方向。这些约束不需要额外参数调整，直接融入方向场的计算，控制器自然就满足了约束。论文里展示了一个“舀-提-运-倒”的长时序任务，用两个YCB数据集里的碗，加上线和平面来施加任务约束。

有个反直觉的发现：杂乱场景反而可能更快。因为多个物体形成的封闭区域比开放空间的计算效率高。论文里提到，加了包围球之后，计算成本降低了约1.5倍。这跟他们用的Walk on Spheres方法有关，封闭区域里的随机游走更快收敛到边界。

硬件配置很接地气：六自由度uFactory Lite 6机械臂，Intel RealSense D415深度相机，Bota Systems的力/力矩传感器，加上3D打印的刀具、削皮器和探针夹具。他们测试了三个任务：切片、削皮、触觉覆盖。每个任务都定义成了“局部动作原语”——在局部坐标系里的简单动作序列。比如削皮就是“沿表面滑动、下压、抬起”的循环，这个描述在所有物体上都成立。迁移到新物体时，只需要重新计算方向场（从实时点云），然后用导纳控制器跟踪局部动作就行。论文展示了在六个不同物体上的成功迁移，包括香蕉、黄瓜、梨、杯子等。

05.

几何驱动vs数据驱动：把任务迁移简化成关键点迁移

NDF是最近几年很火的方法，用神经网络学习物体的局部描述符。两者的哲学不同：NDF是数据驱动，表达能力强但需要训练数据；方向场是几何驱动，把任务的归纳偏置编码在关键点里，通过扩散过程传播到整个空间。论文的观点是：既然关键点可以用简单的感知流程提取（比如边界检测），或者通过基础模型迁移，或者手动标注（反正就几个点），那为什么不直接用几何方法？这把跨物体的任务迁移简化成了跨物体的关键点迁移。

计算机图形学里有个叫功能映射（Functional Maps）的技术，可以在近似等距的表面之间迁移函数。有人用它做过抓取迁移。但功能映射有两个限制：只能处理开环的位置轨迹，而且轨迹必须在表面上。方向场的优势是可以处理接触－分离的连续交互，而且不限于表面——很多任务（比如削皮、舀东西）都是从空中开始，然后接触表面的。

性能数据在补充材料里。最耗时的是从点云构建拉普拉斯算子，但这是预处理步骤。运行时只需要求解线性方程组和执行WoS采样，都很快。论文的代码和数据都放在了Zenodo上（DOI: 10.5281/zenodo.19133638），GitHub仓库链接在记录里。用的是ChatGPT辅助润色语言，Claude辅助整理代码文档，这个披露挺坦诚。

从实验结果看，这套方法在真实场景里已经能稳定工作。削黄瓜、切香蕉、探测杯子表面，这些任务都是一次性完成，没有反复调试。这说明方向场确实捕捉到了曲面操作的本质，不是记住每个物体的具体形状，而是理解“沿着表面”“靠近物体”这些几何关系在不同物体上的共性。

06.

结语与未来：

这个工作的意义不只是让机器人多会了几个技能。它提供了一种新的思路：用几何结构而不是大量数据来解决泛化问题。在家庭服务机器人、农业采摘、医疗辅助这些场景里，物体种类繁多，很难为每个物体都收集训练数据。如果能用几个关键点就完成任务迁移，部署成本会大幅降低。当然，关键点的自动提取还需要更多工作，但至少方向已经很清晰了。

资助来自瑞士国家科学基金会的HORACE项目，以及欧盟Horizon Europe的IntelliMan和SestoSenso项目。看项目名称就知道，欧洲在机器人操作这块投入不小，而且越来越重视几何和物理约束在学习中的作用。这篇论文算是这个方向上的一个里程碑——证明了不用端到端学习，纯几何方法也能在真实世界里干活。

论文地址：https://www.science.org/doi/epdf/10.1126/scirobotics.aea1762

END

工业机器人企业

服务与特种机器人企业

人形机器人企业

具身智能企业

医疗机器人企业

上游产业链企业

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。