削皮、切片、探测表面,瑞士团队用'扩散场'让机器人学会操作曲面物体

洗碗、削水果、切香蕉——这些人类日常操作对机器人来说一直是个难题。问题出在哪?曲面物体没有统一的参考坐标系。在平面上,机器人只需要简单的“上下左右”就能完成任务,但换成弯曲的黄瓜或者不规则的梨,“朝向表面”这个方向在每个位置都不一样。
瑞士洛桑联邦理工学院(EPFL)和Idiap研究所的团队最近在Science Robotics上发了篇论文,提出用“扩散方向场”(Diffused Orientation Fields)来解决这个问题。简单说,就是给机器人的整个工作空间铺上一层平滑变化的局部坐标系,让它无论在哪个位置都知道“什么是沿着表面”“什么是靠近物体”。
01.
点云+偏微分方程,50个变形梨验证跨形状能力
传统方法要么依赖干净的三维网格模型,要么需要大量训练数据。这个团队走了另一条路:直接从深度相机采集的点云数据出发,用偏微分方程(PDE)中的扩散方程来计算方向场。具体来说,他们在物体表面标记几个关键点(keypoints),比如香蕉的两端。然后通过求解扩散方程,让这些关键点的方向信息像热量一样在表面“扩散”开来,形成平滑的方向场。这个过程不需要完整的网格,点云就够了。

更关键的是,他们还把表面的方向场延伸到了整个三维空间。这用到了一个叫“Walk on Spheres”的蒙特卡洛方法——不需要把空间离散化成网格,直接在需要的位置查询就行。这让计算效率大幅提升,能做到实时更新。

论文里有个很硬核的对比实验。他们用YCB数据集里的梨模型,随机生成了50个变形版本——有的被拉长,有的被压扁,有的还扭曲了。然后让机器人用不同的坐标系表示方法去执行削皮任务。对比了四种baseline:单一物体坐标系、柱坐标系、球坐标系,以及多个局部坐标系。结果显示,他们的方法产生的动作轨迹标准差最小,而且在所有方向上都保持了三次削皮循环的周期性模式。更有意思的是,当他们增加局部坐标系的数量时,baseline方法的方差逐渐收敛到他们的连续方向场——这证明了他们的方法本质上是多坐标系方法的连续版本。
02.
手柄遥操作、轨迹规划、强化学习,一个表示层通吃三种控制器
这个方向场不是为某个特定控制器设计的,而是一个通用的中间表示层。论文展示了三种集成方式。
在遥操作场景里,用3DConnexion Space Mouse控制机械臂时,输入轴直接映射到局部坐标系。操作者沿着鼠标的x轴移动,机器人就沿着物体表面滑动;沿z轴移动,就靠近或远离表面。工具姿态自动对齐,操作直觉得多。

轨迹优化方面,他们用方向场定义代价函数,让优化器规划出既保持与表面距离、又能避开障碍物的轨迹。关键是可以用方向场做“warm-start"——沿着局部坐标系的x轴初始化轨迹,优化器基本一次迭代就收敛了。不用warm-start的话,至少要五六次迭代。
强化学习实验更有意思。他们在2D圆形上训练了一个到达目标并保持距离的策略,然后零样本迁移到了2D矩形和3D点云上。用全局坐标系训练的策略完全迁移不了,但用局部坐标系训练的策略直接就能用。这说明方向场提供的几何脚手架确实降低了学习难度。
03.
扩散时间参数τ:平滑度和抗噪能力的调节旋钮
真实场景里,点云数据肯定有噪声,关键点提取也不可能完美。他们做了三组受控实验:拓扑噪声(删掉一半点云,再随机挖10个5毫米的洞)、几何噪声(给点云坐标加3毫米标准差的高斯噪声)、关键点噪声(给关键点位置加20毫米标准差的噪声)。每组实验重复50次,测量生成轨迹与无噪声参考轨迹的均方根误差(RMSE)。

结果符合预期:扩散方程的平滑特性天然抑制高频噪声,扩散时间参数τ越大,方向场越平滑,对噪声的鲁棒性越强。短时间扩散会让方向场的梯度接近测地距离的梯度,保留更多局部几何细节;长时间扩散则提取物体的全局对称性,比如梨的纵向对称轴。这个参数可以根据任务需求灵活调整。
不过论文也坦诚了局限性:如果深度相机对透明、半透明或高反光物体返回的数据太差,光靠平滑是救不回来的。这时候需要配合其他传感器或者点云补全方法。这是硬件约束,不是算法本身的问题。
04.
杂乱场景也能处理,几何基元直接编码任务约束
方向场不限于单个物体。论文展示了一个杂乱场景:香蕉周围有其他物体,还有一个包围球和一个代表墙面的平面。方向场可以同时处理点云、网格和几何基元(sphere、plane、capsule等)。更巧妙的是,几何基元可以直接编码任务约束。

比如舀东西的任务:用一个平面约束工具保持水平(防止洒出来),用一条直线定义提升方向。这些约束不需要额外参数调整,直接融入方向场的计算,控制器自然就满足了约束。论文里展示了一个“舀-提-运-倒”的长时序任务,用两个YCB数据集里的碗,加上线和平面来施加任务约束。
有个反直觉的发现:杂乱场景反而可能更快。因为多个物体形成的封闭区域比开放空间的计算效率高。论文里提到,加了包围球之后,计算成本降低了约1.5倍。这跟他们用的Walk on Spheres方法有关,封闭区域里的随机游走更快收敛到边界。
硬件配置很接地气:六自由度uFactory Lite 6机械臂,Intel RealSense D415深度相机,Bota Systems的力/力矩传感器,加上3D打印的刀具、削皮器和探针夹具。他们测试了三个任务:切片、削皮、触觉覆盖。每个任务都定义成了“局部动作原语”——在局部坐标系里的简单动作序列。比如削皮就是“沿表面滑动、下压、抬起”的循环,这个描述在所有物体上都成立。迁移到新物体时,只需要重新计算方向场(从实时点云),然后用导纳控制器跟踪局部动作就行。论文展示了在六个不同物体上的成功迁移,包括香蕉、黄瓜、梨、杯子等。
05.
几何驱动vs数据驱动:把任务迁移简化成关键点迁移
NDF是最近几年很火的方法,用神经网络学习物体的局部描述符。两者的哲学不同:NDF是数据驱动,表达能力强但需要训练数据;方向场是几何驱动,把任务的归纳偏置编码在关键点里,通过扩散过程传播到整个空间。论文的观点是:既然关键点可以用简单的感知流程提取(比如边界检测),或者通过基础模型迁移,或者手动标注(反正就几个点),那为什么不直接用几何方法?这把跨物体的任务迁移简化成了跨物体的关键点迁移。

计算机图形学里有个叫功能映射(Functional Maps)的技术,可以在近似等距的表面之间迁移函数。有人用它做过抓取迁移。但功能映射有两个限制:只能处理开环的位置轨迹,而且轨迹必须在表面上。方向场的优势是可以处理接触-分离的连续交互,而且不限于表面——很多任务(比如削皮、舀东西)都是从空中开始,然后接触表面的。
性能数据在补充材料里。最耗时的是从点云构建拉普拉斯算子,但这是预处理步骤。运行时只需要求解线性方程组和执行WoS采样,都很快。论文的代码和数据都放在了Zenodo上(DOI: 10.5281/zenodo.19133638),GitHub仓库链接在记录里。用的是ChatGPT辅助润色语言,Claude辅助整理代码文档,这个披露挺坦诚。


从实验结果看,这套方法在真实场景里已经能稳定工作。削黄瓜、切香蕉、探测杯子表面,这些任务都是一次性完成,没有反复调试。这说明方向场确实捕捉到了曲面操作的本质,不是记住每个物体的具体形状,而是理解“沿着表面”“靠近物体”这些几何关系在不同物体上的共性。
06.
结语与未来:
这个工作的意义不只是让机器人多会了几个技能。它提供了一种新的思路:用几何结构而不是大量数据来解决泛化问题。在家庭服务机器人、农业采摘、医疗辅助这些场景里,物体种类繁多,很难为每个物体都收集训练数据。如果能用几个关键点就完成任务迁移,部署成本会大幅降低。当然,关键点的自动提取还需要更多工作,但至少方向已经很清晰了。
资助来自瑞士国家科学基金会的HORACE项目,以及欧盟Horizon Europe的IntelliMan和SestoSenso项目。看项目名称就知道,欧洲在机器人操作这块投入不小,而且越来越重视几何和物理约束在学习中的作用。这篇论文算是这个方向上的一个里程碑——证明了不用端到端学习,纯几何方法也能在真实世界里干活。
论文地址:https://www.science.org/doi/epdf/10.1126/scirobotics.aea1762
END


工业机器人企业
埃斯顿自动化 | 埃夫特机器人 | 法奥机器人 | 越疆机器人 | 节卡机器人 | 松灵机器人 | 珞石机器人 | 阿童木机器人 | 极智嘉 | 海康机器人
服务与特种机器人企业
亿嘉和 | 晶品特装 | 七腾机器人 | 史河机器人 | 普渡机器人 | 施罗德机器人 | 库犸科技MAMMOTION
人形机器人企业
优必选科技 | 宇树 | 云深处 | 星动纪元 | 伟景机器人 | 逐际动力 | 乐聚机器人 | 大象机器人 | 魔法原子 | 众擎机器人 | 帕西尼感知 | 赛博格机器人 | 数字华夏 | 傅利叶智能 | 天链机器人 | 开普勒人形机器人 | 灵宝CASBOT | 清宝机器人 | 浙江人形机器人创新中心 | 动易科技 | 智身科技 | PNDbotics | 卓益得机器人 | 鹿明机器人 | 擎朗智能| 伽利略GALILEO | 天机智能 | 卧安机器人
具身智能企业
跨维智能 | 银河通用 | 千寻智能 | 灵心巧手 | 睿尔曼智能 | 微亿智造 | 推行科技 | 中科硅纪 | 枢途科技 | 灵巧智能 | 星尘智能 | 穹彻智能 | 方舟无限 | 科大讯飞 | 北京人形机器人创新中心| 国地共建人形机器人创新中心 | 戴盟机器人| 视比特机器人| 星海图 | 月泉仿生 | 零次方机器人 | 中科深谷 | 智平方 | 大咖机器人 | 灏存科技| 具识智能 | Xynova曦诺未来 | 非夕科技 |未来动力 | 博登智能 | 千诀科技 | 灵生科技 | 集萃智造 | 欣佰特科技 | 晨昏线科技 | Dexmal 原力灵机 | 优理奇
医疗机器人企业
元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®机器人 | 罗森博特 | 水木东方|康诺思腾 | 迪视医疗
上游产业链企业
绿的谐波 | 因时机器人 | 坤维科技 | 脉塔智能 | 青瞳视觉 | 本末科技 | 鑫精诚传感器 | 蓝点触控 | BrainCo强脑科技 | 宇立仪器 | 极亚精机 | 思岚科技 | 神源生 | 非普导航科技 | 因克斯 | 巨蟹智能驱动 | 凌云光 元客视界 | 璇玑动力| 意优科技| 瑞源精密 | 灵足时代 | HIT华威科 | 星汇传感 | 凌迪科技 | 泉智博| CubeMars

