一文看懂灵巧手技术进展!
发布时间:2026-05-25来源:人形机器人洞察研究

温馨提示:扫描文末二维码,加入知识星球,免费下载2800+行业报告(包含海外投行报告);企业广告、推文宣传和研究咨询合作请联系16620948826(同微信)。机器人灵巧手常被简单理解成“更复杂的夹爪”,但这个说法并不准确。普通夹爪的重点是抓住物体;灵巧手要处理的是另一类问题:多根手指怎样配合,接触力怎样调节,物体能不能在手里被稳定地移动、旋转、重抓取,甚至完成工具操作。过去几年,灵巧手研究的边界明显变宽了。高自由度机构、柔顺结构、触觉传感、仿真平台、数据生成、强化学习、模仿学习和扩散策略都被卷了进来。它已经不是一个单纯的机械设计问题,而是硬件、感知、控制、数据和评测交织在一起的系统问题。这也带来了一个麻烦:不同论文用的手型不同,传感器不同,任务不同,训练数据和评测协议也不同。单看某个任务成功率,很容易误判一个系统的真实能力。灵巧手智能真正难的地方,不在某个电机、某个模型或某个 benchmark,而在这些部分能不能一起工作。这里讨论的灵巧手,是指能够依靠多指运动和接触力控制,在不借助外部支撑的情况下,对物体进行手内操作的机械手。这个定义有两个重点:一是多指协同,不是单点夹持;二是接触过程中的持续调节,不是一次开合动作。现有研究大致可以分成几类:硬件结构、驱动与传动设计;触觉和多模态感知;强化学习、模仿学习、扩散策略、VLA 等控制方法;数据集、模态设计和评测标准。任何一层单独拿出来都解释不了灵巧手的能力。高自由度如果没有可靠感知和控制,只会增加复杂度;大模型如果接不上低层力控,也很难处理接触密集任务;仿真训练如果忽略真实接触、摩擦、迟滞和传感噪声,部署到实机上往往会出问题。因此,灵巧手研究更适合放在一个系统框架里看:硬件提供动作空间,感知提供反馈,学习和控制产生策略,数据与评测决定这些能力如何被训练和比较。灵巧手硬件主要由驱动、传动和感知三部分组成。驱动决定能量怎样转化为运动,传动决定力和位移怎样分配到关节,感知决定系统怎样知道自己和物体发生了什么。三者共同影响灵巧手的力量、柔顺性、带宽、集成度和维护难度。驱动系统:没有一种方案能通吃。灵巧手常见驱动方式包括电磁驱动、流体驱动、智能材料驱动和混合驱动。电磁驱动以微型电机为主,控制成熟、响应快、精度高。空心杯直流电机、无框力矩电机、超声电机和无刷直流电机都属于这一类。它的难点也很直接:手部空间很小,精度、功率密度、体积和柔顺性很难同时做到最好。流体驱动依靠液压或气压产生运动。液压输出力大,功率密度高;气动人工肌肉柔顺性好,适合仿生结构。但泵、阀、管路会增加体积和维护成本,响应速度和系统集成也会受到影响。智能材料驱动利用材料在热、电、磁、光等刺激下的形变产生运动,例如形状记忆合金、电活性聚合物、离子聚合物金属复合材料、软磁肌肉和压电陶瓷。它们轻、紧凑,也容易做出仿生形态,但响应速度、耐久性和可控性仍然限制了应用范围。混合驱动则更接近真实工程中的选择。比如伺服电机加腱绳,气动系统加腱绳结构,或者“行星齿轮箱 + 丝杠 + 腱绳”的组合。灵巧手硬件很少靠单点性能取胜,更多时候是在力、速度、精度、柔顺性和集成度之间做折中。传动系统:重新分配力、精度和柔顺性。传动系统本身不产生能量,但它决定驱动力怎样到达各个关节。常见方案包括腱绳、连杆、齿轮、丝杠、带轮/滑轮,以及直接或集成式传动。腱绳传动接近人手肌腱的思路,适合高自由度手指,结构紧凑、重量轻,也方便做运动耦合。问题是张力调节、摩擦迟滞、回差和磨损。连杆传动通过刚性连杆建立确定的运动关系,刚度高、重复定位精度好,输出力也比较稳定。但它的柔顺性和适应性较弱,面对复杂手内操作时扩展空间有限。齿轮传动适合扭矩放大、方向转换和多自由度协同控制,机械刚度和传动比都不错。代价是重量、体积和抗冲击能力,尤其在紧凑型灵巧手里,这些问题会被放大。丝杠和滚柱丝杠能把旋转运动转换成精确线性位移,适合高刚度驱动和闭环力控。它们的限制主要来自摩擦损耗和轴向长度。带、缆和滑轮结构简单、成本低、布置灵活,但刚度和精度一般,容易受到弹性形变、打滑和回差影响。直接或集成式传动把驱动和传动合在一起,例如软体流体腔体直接带动关节,或压电陶瓷直接驱动关节。这类结构紧凑、机械复杂度低、柔顺性好,但输出力、可扩展性和精确控制还不够稳定。感知系统:从单一传感器到多模态闭环。灵巧手必须知道两件事:自己处在什么状态,外部接触发生了什么。前者靠本体感知,后者主要靠触觉和视觉。现在的趋势不是堆更多传感器,而是让这些信号真正进入控制闭环。本体感知包括关节位置、运动状态、关节力/力矩和腱绳张力。编码器、电位计、霍尔传感器、光学编码器、IMU、应变式力矩传感器、多轴力/力矩传感器和光纤布拉格光栅传感器,主要服务于闭环控制、运动精度和安全保护。触觉感知关注接触力、纹理、温度和空间分布。电阻式、电容式、压电式、摩擦电式、光电式、流体式和视觉式触觉传感器各有优势,也各有麻烦。单一方案很难同时兼顾灵敏度、带宽、空间分辨率、鲁棒性和集成成本,所以多模态触觉和任务定制型触觉设计越来越常见。视觉、本体和触觉的融合可以发生在数据层、特征层或决策层,也可以采用混合方式。更进一步,感知正在和驱动、控制一起设计,而不是在机械手做好之后再往上贴传感器。灵巧手的系统架构:驱动包括电磁、流体、智能材料和混合驱动;传动包括腱绳、连杆、齿轮、丝杠、带轮/滑轮、集成与直接传动;感知包括本体感知、触觉感知和多模态视觉感知。代表性灵巧手平台,包括 SKKU Hand II、DLR-HIT HAND II、MPL、Shadow Hand、LEAP Hand II、Unitree Dex、Optimus Gen 3 等,比较维度包括年份、驱动方式、传动方式、触觉配置、手指数、自由度、电压、电流、负载能力、重量、通信接口和开发者。灵巧手任务差异很大。手内操作、抓取搬运、工具使用、人机交互和双手协作,对接触动力学、力控和感知的要求都不一样。因此,灵巧手智能通常不是围绕某一种算法展开,而是围绕任务展开。通用研究流程:规划、训练与部署。灵巧手控制要同时处理高自由度、多点接触、柔顺结构和多模态感知。它既要实时,又要稳定,还要安全。一个常见流程可以分成三步。第一步是任务规划,明确目标、约束、失败模式和评价标准。第二步是策略训练,在仿真和数据中学习策略,并通过域随机化、系统校准和 sim-to-real 适配提高迁移能力。第三步是实机部署,通过视觉、触觉和本体反馈执行策略,同时记录失败案例,再反过来改进训练和规划。任务规划、策略训练和部署三阶段;其中包括高层目标、任务场景、仿真、策略模型、域随机化、真实系统、视觉/触觉/本体感知、控制、驱动和执行。图中还可以区分低频长时序规划与高频快速反馈控制。可按任务划分灵巧手研究:手内操作、抓取与拾放、工具与设备操作、人机交互、双手操作;对应方法包括强化学习、扩散策略、模仿学习、表征学习、模型控制、VLA 等。手内操作:最能暴露灵巧手真实水平的任务。手内操作包括物体在手里的平移、旋转、重定向和再抓取。难点在于持续接触、频繁接触切换、视觉遮挡、摩擦不确定性,以及一旦失败很难恢复。强化学习适合从交互中学习闭环策略,减少对精确接触模型的依赖。近年的工作主要集中在样本效率、探索策略、reset-free 训练,以及视觉、点云、触觉和运动学先验的引入。扩散策略适合生成连续、平滑、多模态的动作轨迹,能处理多指协调和接触不确定性。相关研究正在从位置动作扩展到力/力矩空间,并结合视觉预测、触觉信号和交互感知规划。模仿学习通过专家示范引入人类操作先验,适合高维手指协调和接触密集任务。示范来源也从单目视频、RGB 采集,扩展到接触力、触觉演示和视频结果监督。模型控制的优势是物理约束清楚、可解释、对数据依赖较低,适合安全要求高的场景。难点仍然是接触动力学太难建模。学习增强型 MPC、接触隐式轨迹优化和几何 fabric 控制,正在让模型控制和学习方法靠得更近。VLA 在手内操作里更适合做高层语义理解和长时序任务分解,而不是直接替代低层力控。它把语言目标、视觉场景和操作子目标转成低层控制器可以执行的引导信号。2015至2025年手内操作研究时间线,按强化学习、模型控制、模仿学习、VLA、扩散策略等类别整理代表性工作。抓取与拾放:从抓得住到能泛化。抓取与拾放是灵巧操作的基础。抓取通常包括两个环节:先根据物体几何和任务约束选择接触构型,再通过运动规划和反馈控制执行。拾放还要处理运输、放置、力调节和感知不确定性。强化学习常用于接触密集策略学习,并提升跨手型、跨物体和跨环境迁移能力。扩散策略适合生成平滑、多模态抓取轨迹,可用于复杂抓取分布、柔性物体和功能性抓取。模仿学习通过人类示范或合成示范减少试错成本,也支持少样本学习。表征学习利用点云、距离矩阵、对象中心表征、多模态状态和 Transformer 表征,提高跨对象、跨手型和跨任务的泛化能力。VLA 则把语言指令、视觉理解和动作生成接入抓取任务,让系统具备开放词汇理解和任务语义理解能力。2020至2025年抓取与拾放研究时间线,按强化学习、表征学习、模仿学习、VLA、扩散策略等分类。扩散策略怎样连接多模态感知和灵巧操作。输入包括 RGB、深度、触觉、位姿和力传感器;扩散策略通过动作去噪生成动作序列;输出任务包括抓取、操作、工具使用和双手协同。VLA基础模型架构。视觉输入包括RGB图像、点云和3D几何数据;语言输入包括文本指令或目标;多模态Transformer处理 token、提取特征并进行跨模态注意力计算,最后输出关节角、力矩、速度或连续控制信号。
工具与设备操作:不只是抓住,还要理解用途。工具与设备操作要求机器人理解物体的功能。锤子、剪刀、旋钮、抽屉、喷壶和电钻都不是只靠外形就能操作好的对象。系统需要理解affordance、接触力、形态差异、机械结构和长时序动作。强化学习适合学习复杂接触动力学和非直观协同策略,尤其是在铰接工具、变形工具和任务特定力控中。模仿学习可以从少量人类示范中提取功能关键点、关键手势和抓取偏好,让模型学到工具的功能结构,而不只是外观相似性。VLA 的价值在于把视觉和语言语义对齐,使机器人能理解工具用途、选择替代工具、分解长任务,并在出错时重新规划。2020至2025年工具使用与设备操作研究时间线,按强化学习、模仿学习、VLA 等类别整理。
人机交互:安全、意图和动态接触。人机交互和物体操作不一样。交互对象是会动、会改变意图、也会对机器人动作产生反应的人。系统不仅要完成任务,还要预测动作变化、保持柔顺接触,并满足安全约束。强化学习可用于适应实时反馈和外部扰动,学习更安全、稳定、符合人类偏好的交互策略。Human-in-the-Loop强化学习通过人的偏好和纠正信号优化策略,使机器人不只是把任务做完,还要以人能接受的方式完成。模仿学习则利用人类交互行为中的先验,例如交接动作、手部轨迹、双手协调模式和意图对齐动作原语。大规模自我中心视频和人类交互数据,也可能为灵巧手交互提供更自然的示范来源。双手操作:两个高自由度系统之间的协同。双手操作比单手更难,因为系统要同时处理角色分配、力分配、接触切换、时序协调和稳定性。两只手都在动,物体也在动,任何一个接触点变化都可能影响整体状态。强化学习可用于学习多接触协调和动态技能。扩散策略适合生成平滑、连贯、物理可行的双臂轨迹。模仿学习通过人类双手示范提高训练效率,减少不自然动作。VLA 可以提供语义分解、任务规划和错误恢复。表征学习则通过统一视觉、触觉、3D点云和双手-物体交互数据,为复杂协同任务建立更结构化的状态空间。2022至2025年双手操作研究时间线,按强化学习、表征学习、模仿学习、VLA、扩散策略等分类。灵巧手数据集不能只看规模。数据怎么采、包含哪些模态、评测怎么设定,都会影响一个数据集能支持什么能力。数据采集:优化生成、学习生成和人类采集。优化生成数据通常来自仿真环境,通过解析目标、可微目标或物理约束生成抓取姿态和交互姿态,再用 MuJoCo、Isaac Gym 等物理引擎验证。它的好处是高通量、可复现;问题是能量函数设计和 sim-to-real 差距会影响数据质量。学习生成数据通过强化学习、课程学习、蒸馏、扩散模型、检索式数据引擎或模型闭环过滤扩大规模。它能覆盖更复杂的分布,但训练稳定性、算力成本和物理合理性仍然是难点。人类采集数据来自真人或遥操作机器人,常用多视角 RGB-D、穿戴式动捕、惯性手套和触觉阵列记录。它保留了真实接触和人类行为先验,但成本高、扩展慢。很多系统会把人类采集和仿真验证结合起来,例如先把人手动作重定向到机械手,再在仿真中检查抓取是否成立。数据模态:从几何状态到语义任务。早期数据多以几何状态为中心,包括手和物体位姿、物体网格或点云、机器人本体状态。这些数据适合抓取合成、状态估计和对象中心控制。视觉模态,包括 RGB 和 RGB-D,广泛用于真实和混合数据管线。视觉能保留外观、遮挡和跨实例差异。接触模态也越来越重要,包括接触标签、触觉信号、力/力矩测量和接触感知视觉观测。这些信息直接影响抓取稳定性、滑移检测、力调节和遮挡条件下的精细操作。语义和任务条件是新的增长点。一些数据集开始加入语义标签、任务描述或语言注释,使数据不再只服务于单步抓取,也能支持任务感知和长时序操作。主要灵巧手数据集,包括 DexGraspNet、GenDexGrasp、DexMV、DexArt、UniDexGrasp++、RealDex、DexCap、DexFuncGrasp、RH20T、DexGraspAnything、BODex、CEDex、Dex1B、DexTOG 和 VTDexManip 等。比较维度可包括数据集名称、年份、场景、模态、对应本体、采集方式和规模。评测:成功率必须绑定协议。灵巧手评测不能只报一个成功率。抓取和姿态类数据通常要看物理合理性,包括穿透、准静态稳定性、抓取多样性和几何覆盖。执行类任务则要看策略是否能完成任务,以及能否泛化到未见物体、未见类别或更复杂条件。如果任务包含触觉数据,评测还要考虑接触不确定性,例如未见物体、视角变化、触觉阈值和触觉噪声。真实世界或人类采集数据还应关注动作保真度、阶段完成率、示范质量、轨迹一致性、接触真实性和数据效率。更严格地说,真实部署看的不是一次成功,而是系统是否可靠。感知是否稳定,决策是否稳健,交互是否安全,失败是否可预测,这些都应该进入评测。未来的评测需要覆盖遮挡、杂乱场景、分布外物体、传感噪声、接触条件变化、人类干预、失败预测、恢复率、安全违规率,以及视觉、触觉和本体感知之间的一致性。高仿生复杂度和硬件可行性之间有矛盾。人手式高自由度结构需要把驱动、传感和控制高度集成,成本、维护和可靠性压力都很大。更现实的方向未必是复刻人手外形,而是追求功能上的灵巧:通过运动协同、欠驱动和结构优化,在有限自由度和可制造结构里实现更多任务能力。多模态感知融合还不够稳定。视觉、触觉和本体感知的频率、噪声、空间分辨率和延迟都不同,同步和解释都不容易。系统需要从“多装几个传感器”走向真正的跨模态理解,在传感缺失、噪声和遮挡条件下仍能保持低延迟、可解释的闭环控制。学习、控制和数据仍受泛化限制。模型控制依赖精确动力学,但复杂接触很难建模;学习方法进展很快,却面临分布偏移、安全性、算力成本和真实迁移问题。数据层面,长时序交互、失败案例、恢复行为和触觉信息仍然不足。后续研究不能只优化 benchmark,还要让语言目标、视觉目标和物理执行在真实系统里对得上。系统集成和产业化仍有距离。高性能灵巧手制造和维护成本高,低成本方案又容易牺牲传感质量、材料寿命和长期可靠性。训练成本、部署成本和 sim-to-real 差距也限制了规模化应用。标准化接口、模块化手指/关节/传感器、统一评测协议和可替换组件,会直接影响灵巧手能否从实验平台走向实际部署。灵巧手智能不是某个单点技术的胜利。驱动和传动决定动作边界,感知决定闭环能力,学习和控制决定策略怎样形成,数据集和评测协议决定能力怎样被训练、验证和比较。现在的灵巧手已经能在手内操作、抓取拾放、工具使用、人机交互和双手协作中展示相当复杂的能力。但离稳定、低成本、可维护、可大规模部署的系统,还有明显距离。下一步的进展,很可能来自几件事的同时推进:更容易制造的硬件,更可靠的多模态感知,更能迁移的数据和策略,更严格的可靠性评测,以及更接近工程现场的系统集成方式。参考资料:https://arxiv.org/abs/2605.13925免责声明
1、我们整理、翻译和转载此文出于传播更多资讯之目的,不代表本号观点,亦不构成任何投资观点,由此做出的投资决策与本人本文无关!2、本文所用的视频、图片、文字如涉及作品版权问题,请第一时间联系小编:16620948826(同微信),我们将立即删除,无任何商业用途!
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。