一文看懂灵巧手技术进展！

发布时间：2026-05-25来源：人形机器人洞察研究

温馨提示：扫描文末二维码，加入知识星球，免费下载2800+行业报告（包含海外投行报告）；企业广告、推文宣传和研究咨询合作请联系16620948826（同微信）。

机器人灵巧手常被简单理解成“更复杂的夹爪”，但这个说法并不准确。普通夹爪的重点是抓住物体；灵巧手要处理的是另一类问题：多根手指怎样配合，接触力怎样调节，物体能不能在手里被稳定地移动、旋转、重抓取，甚至完成工具操作。

过去几年，灵巧手研究的边界明显变宽了。高自由度机构、柔顺结构、触觉传感、仿真平台、数据生成、强化学习、模仿学习和扩散策略都被卷了进来。它已经不是一个单纯的机械设计问题，而是硬件、感知、控制、数据和评测交织在一起的系统问题。

这也带来了一个麻烦：不同论文用的手型不同，传感器不同，任务不同，训练数据和评测协议也不同。单看某个任务成功率，很容易误判一个系统的真实能力。灵巧手智能真正难的地方，不在某个电机、某个模型或某个 benchmark，而在这些部分能不能一起工作。

灵巧手不是高自由度夹爪

这里讨论的灵巧手，是指能够依靠多指运动和接触力控制，在不借助外部支撑的情况下，对物体进行手内操作的机械手。这个定义有两个重点：一是多指协同，不是单点夹持；二是接触过程中的持续调节，不是一次开合动作。

现有研究大致可以分成几类：硬件结构、驱动与传动设计；触觉和多模态感知；强化学习、模仿学习、扩散策略、VLA 等控制方法；数据集、模态设计和评测标准。任何一层单独拿出来都解释不了灵巧手的能力。高自由度如果没有可靠感知和控制，只会增加复杂度；大模型如果接不上低层力控，也很难处理接触密集任务；仿真训练如果忽略真实接触、摩擦、迟滞和传感噪声，部署到实机上往往会出问题。

因此，灵巧手研究更适合放在一个系统框架里看：硬件提供动作空间，感知提供反馈，学习和控制产生策略，数据与评测决定这些能力如何被训练和比较。

灵巧手解剖：驱动、传动、感知

灵巧手硬件主要由驱动、传动和感知三部分组成。驱动决定能量怎样转化为运动，传动决定力和位移怎样分配到关节，感知决定系统怎样知道自己和物体发生了什么。三者共同影响灵巧手的力量、柔顺性、带宽、集成度和维护难度。

驱动系统：没有一种方案能通吃。灵巧手常见驱动方式包括电磁驱动、流体驱动、智能材料驱动和混合驱动。

电磁驱动以微型电机为主，控制成熟、响应快、精度高。空心杯直流电机、无框力矩电机、超声电机和无刷直流电机都属于这一类。它的难点也很直接：手部空间很小，精度、功率密度、体积和柔顺性很难同时做到最好。

流体驱动依靠液压或气压产生运动。液压输出力大，功率密度高；气动人工肌肉柔顺性好，适合仿生结构。但泵、阀、管路会增加体积和维护成本，响应速度和系统集成也会受到影响。

智能材料驱动利用材料在热、电、磁、光等刺激下的形变产生运动，例如形状记忆合金、电活性聚合物、离子聚合物金属复合材料、软磁肌肉和压电陶瓷。它们轻、紧凑，也容易做出仿生形态，但响应速度、耐久性和可控性仍然限制了应用范围。

混合驱动则更接近真实工程中的选择。比如伺服电机加腱绳，气动系统加腱绳结构，或者“行星齿轮箱 + 丝杠 + 腱绳”的组合。灵巧手硬件很少靠单点性能取胜，更多时候是在力、速度、精度、柔顺性和集成度之间做折中。

传动系统：重新分配力、精度和柔顺性。传动系统本身不产生能量，但它决定驱动力怎样到达各个关节。常见方案包括腱绳、连杆、齿轮、丝杠、带轮/滑轮，以及直接或集成式传动。

腱绳传动接近人手肌腱的思路，适合高自由度手指，结构紧凑、重量轻，也方便做运动耦合。问题是张力调节、摩擦迟滞、回差和磨损。

连杆传动通过刚性连杆建立确定的运动关系，刚度高、重复定位精度好，输出力也比较稳定。但它的柔顺性和适应性较弱，面对复杂手内操作时扩展空间有限。

齿轮传动适合扭矩放大、方向转换和多自由度协同控制，机械刚度和传动比都不错。代价是重量、体积和抗冲击能力，尤其在紧凑型灵巧手里，这些问题会被放大。

丝杠和滚柱丝杠能把旋转运动转换成精确线性位移，适合高刚度驱动和闭环力控。它们的限制主要来自摩擦损耗和轴向长度。带、缆和滑轮结构简单、成本低、布置灵活，但刚度和精度一般，容易受到弹性形变、打滑和回差影响。

直接或集成式传动把驱动和传动合在一起，例如软体流体腔体直接带动关节，或压电陶瓷直接驱动关节。这类结构紧凑、机械复杂度低、柔顺性好，但输出力、可扩展性和精确控制还不够稳定。

感知系统：从单一传感器到多模态闭环。灵巧手必须知道两件事：自己处在什么状态，外部接触发生了什么。前者靠本体感知，后者主要靠触觉和视觉。现在的趋势不是堆更多传感器，而是让这些信号真正进入控制闭环。

本体感知包括关节位置、运动状态、关节力/力矩和腱绳张力。编码器、电位计、霍尔传感器、光学编码器、IMU、应变式力矩传感器、多轴力/力矩传感器和光纤布拉格光栅传感器，主要服务于闭环控制、运动精度和安全保护。

触觉感知关注接触力、纹理、温度和空间分布。电阻式、电容式、压电式、摩擦电式、光电式、流体式和视觉式触觉传感器各有优势，也各有麻烦。单一方案很难同时兼顾灵敏度、带宽、空间分辨率、鲁棒性和集成成本，所以多模态触觉和任务定制型触觉设计越来越常见。

视觉、本体和触觉的融合可以发生在数据层、特征层或决策层，也可以采用混合方式。更进一步，感知正在和驱动、控制一起设计，而不是在机械手做好之后再往上贴传感器。

灵巧手的系统架构：驱动包括电磁、流体、智能材料和混合驱动；传动包括腱绳、连杆、齿轮、丝杠、带轮/滑轮、集成与直接传动；感知包括本体感知、触觉感知和多模态视觉感知。

代表性灵巧手平台，包括 SKKU Hand II、DLR-HIT HAND II、MPL、Shadow Hand、LEAP Hand II、Unitree Dex、Optimus Gen 3 等，比较维度包括年份、驱动方式、传动方式、触觉配置、手指数、自由度、电压、电流、负载能力、重量、通信接口和开发者。

灵巧手：从抓取到手内操作、工具使用和双手协同

灵巧手任务差异很大。手内操作、抓取搬运、工具使用、人机交互和双手协作，对接触动力学、力控和感知的要求都不一样。因此，灵巧手智能通常不是围绕某一种算法展开，而是围绕任务展开。

通用研究流程：规划、训练与部署。灵巧手控制要同时处理高自由度、多点接触、柔顺结构和多模态感知。它既要实时，又要稳定，还要安全。

一个常见流程可以分成三步。第一步是任务规划，明确目标、约束、失败模式和评价标准。第二步是策略训练，在仿真和数据中学习策略，并通过域随机化、系统校准和 sim-to-real 适配提高迁移能力。第三步是实机部署，通过视觉、触觉和本体反馈执行策略，同时记录失败案例，再反过来改进训练和规划。

任务规划、策略训练和部署三阶段；其中包括高层目标、任务场景、仿真、策略模型、域随机化、真实系统、视觉/触觉/本体感知、控制、驱动和执行。图中还可以区分低频长时序规划与高频快速反馈控制。

可按任务划分灵巧手研究：手内操作、抓取与拾放、工具与设备操作、人机交互、双手操作；对应方法包括强化学习、扩散策略、模仿学习、表征学习、模型控制、VLA 等。

手内操作：最能暴露灵巧手真实水平的任务。手内操作包括物体在手里的平移、旋转、重定向和再抓取。难点在于持续接触、频繁接触切换、视觉遮挡、摩擦不确定性，以及一旦失败很难恢复。

强化学习适合从交互中学习闭环策略，减少对精确接触模型的依赖。近年的工作主要集中在样本效率、探索策略、reset-free 训练，以及视觉、点云、触觉和运动学先验的引入。

扩散策略适合生成连续、平滑、多模态的动作轨迹，能处理多指协调和接触不确定性。相关研究正在从位置动作扩展到力/力矩空间，并结合视觉预测、触觉信号和交互感知规划。

模仿学习通过专家示范引入人类操作先验，适合高维手指协调和接触密集任务。示范来源也从单目视频、RGB 采集，扩展到接触力、触觉演示和视频结果监督。

模型控制的优势是物理约束清楚、可解释、对数据依赖较低，适合安全要求高的场景。难点仍然是接触动力学太难建模。学习增强型 MPC、接触隐式轨迹优化和几何 fabric 控制，正在让模型控制和学习方法靠得更近。

VLA 在手内操作里更适合做高层语义理解和长时序任务分解，而不是直接替代低层力控。它把语言目标、视觉场景和操作子目标转成低层控制器可以执行的引导信号。

2015至2025年手内操作研究时间线，按强化学习、模型控制、模仿学习、VLA、扩散策略等类别整理代表性工作。

抓取与拾放：从抓得住到能泛化。抓取与拾放是灵巧操作的基础。抓取通常包括两个环节：先根据物体几何和任务约束选择接触构型，再通过运动规划和反馈控制执行。拾放还要处理运输、放置、力调节和感知不确定性。

强化学习常用于接触密集策略学习，并提升跨手型、跨物体和跨环境迁移能力。扩散策略适合生成平滑、多模态抓取轨迹，可用于复杂抓取分布、柔性物体和功能性抓取。模仿学习通过人类示范或合成示范减少试错成本，也支持少样本学习。表征学习利用点云、距离矩阵、对象中心表征、多模态状态和 Transformer 表征，提高跨对象、跨手型和跨任务的泛化能力。VLA 则把语言指令、视觉理解和动作生成接入抓取任务，让系统具备开放词汇理解和任务语义理解能力。

2020至2025年抓取与拾放研究时间线，按强化学习、表征学习、模仿学习、VLA、扩散策略等分类。

扩散策略怎样连接多模态感知和灵巧操作。输入包括 RGB、深度、触觉、位姿和力传感器；扩散策略通过动作去噪生成动作序列；输出任务包括抓取、操作、工具使用和双手协同。

VLA基础模型架构。视觉输入包括RGB图像、点云和3D几何数据；语言输入包括文本指令或目标；多模态Transformer处理 token、提取特征并进行跨模态注意力计算，最后输出关节角、力矩、速度或连续控制信号。

工具与设备操作：不只是抓住，还要理解用途。工具与设备操作要求机器人理解物体的功能。锤子、剪刀、旋钮、抽屉、喷壶和电钻都不是只靠外形就能操作好的对象。系统需要理解affordance、接触力、形态差异、机械结构和长时序动作。

强化学习适合学习复杂接触动力学和非直观协同策略，尤其是在铰接工具、变形工具和任务特定力控中。模仿学习可以从少量人类示范中提取功能关键点、关键手势和抓取偏好，让模型学到工具的功能结构，而不只是外观相似性。VLA 的价值在于把视觉和语言语义对齐，使机器人能理解工具用途、选择替代工具、分解长任务，并在出错时重新规划。

2020至2025年工具使用与设备操作研究时间线，按强化学习、模仿学习、VLA 等类别整理。

人机交互：安全、意图和动态接触。人机交互和物体操作不一样。交互对象是会动、会改变意图、也会对机器人动作产生反应的人。系统不仅要完成任务，还要预测动作变化、保持柔顺接触，并满足安全约束。

强化学习可用于适应实时反馈和外部扰动，学习更安全、稳定、符合人类偏好的交互策略。Human-in-the-Loop强化学习通过人的偏好和纠正信号优化策略，使机器人不只是把任务做完，还要以人能接受的方式完成。

模仿学习则利用人类交互行为中的先验，例如交接动作、手部轨迹、双手协调模式和意图对齐动作原语。大规模自我中心视频和人类交互数据，也可能为灵巧手交互提供更自然的示范来源。

双手操作：两个高自由度系统之间的协同。双手操作比单手更难，因为系统要同时处理角色分配、力分配、接触切换、时序协调和稳定性。两只手都在动，物体也在动，任何一个接触点变化都可能影响整体状态。

强化学习可用于学习多接触协调和动态技能。扩散策略适合生成平滑、连贯、物理可行的双臂轨迹。模仿学习通过人类双手示范提高训练效率，减少不自然动作。VLA 可以提供语义分解、任务规划和错误恢复。表征学习则通过统一视觉、触觉、3D点云和双手-物体交互数据，为复杂协同任务建立更结构化的状态空间。

2022至2025年双手操作研究时间线，按强化学习、表征学习、模仿学习、VLA、扩散策略等分类。

数据集与评测：能力边界由数据和协议决定

灵巧手数据集不能只看规模。数据怎么采、包含哪些模态、评测怎么设定，都会影响一个数据集能支持什么能力。

数据采集：优化生成、学习生成和人类采集。优化生成数据通常来自仿真环境，通过解析目标、可微目标或物理约束生成抓取姿态和交互姿态，再用 MuJoCo、Isaac Gym 等物理引擎验证。它的好处是高通量、可复现；问题是能量函数设计和 sim-to-real 差距会影响数据质量。

学习生成数据通过强化学习、课程学习、蒸馏、扩散模型、检索式数据引擎或模型闭环过滤扩大规模。它能覆盖更复杂的分布，但训练稳定性、算力成本和物理合理性仍然是难点。

人类采集数据来自真人或遥操作机器人，常用多视角 RGB-D、穿戴式动捕、惯性手套和触觉阵列记录。它保留了真实接触和人类行为先验，但成本高、扩展慢。很多系统会把人类采集和仿真验证结合起来，例如先把人手动作重定向到机械手，再在仿真中检查抓取是否成立。

数据模态：从几何状态到语义任务。早期数据多以几何状态为中心，包括手和物体位姿、物体网格或点云、机器人本体状态。这些数据适合抓取合成、状态估计和对象中心控制。

视觉模态，包括 RGB 和 RGB-D，广泛用于真实和混合数据管线。视觉能保留外观、遮挡和跨实例差异。接触模态也越来越重要，包括接触标签、触觉信号、力/力矩测量和接触感知视觉观测。这些信息直接影响抓取稳定性、滑移检测、力调节和遮挡条件下的精细操作。

语义和任务条件是新的增长点。一些数据集开始加入语义标签、任务描述或语言注释，使数据不再只服务于单步抓取，也能支持任务感知和长时序操作。

主要灵巧手数据集，包括 DexGraspNet、GenDexGrasp、DexMV、DexArt、UniDexGrasp++、RealDex、DexCap、DexFuncGrasp、RH20T、DexGraspAnything、BODex、CEDex、Dex1B、DexTOG 和 VTDexManip 等。比较维度可包括数据集名称、年份、场景、模态、对应本体、采集方式和规模。

评测：成功率必须绑定协议。灵巧手评测不能只报一个成功率。抓取和姿态类数据通常要看物理合理性，包括穿透、准静态稳定性、抓取多样性和几何覆盖。执行类任务则要看策略是否能完成任务，以及能否泛化到未见物体、未见类别或更复杂条件。

如果任务包含触觉数据，评测还要考虑接触不确定性，例如未见物体、视角变化、触觉阈值和触觉噪声。真实世界或人类采集数据还应关注动作保真度、阶段完成率、示范质量、轨迹一致性、接触真实性和数据效率。

更严格地说，真实部署看的不是一次成功，而是系统是否可靠。感知是否稳定，决策是否稳健，交互是否安全，失败是否可预测，这些都应该进入评测。未来的评测需要覆盖遮挡、杂乱场景、分布外物体、传感噪声、接触条件变化、人类干预、失败预测、恢复率、安全违规率，以及视觉、触觉和本体感知之间的一致性。

当前限制与未来方向：从实验能力到可部署系统

高仿生复杂度和硬件可行性之间有矛盾。人手式高自由度结构需要把驱动、传感和控制高度集成，成本、维护和可靠性压力都很大。更现实的方向未必是复刻人手外形，而是追求功能上的灵巧：通过运动协同、欠驱动和结构优化，在有限自由度和可制造结构里实现更多任务能力。

多模态感知融合还不够稳定。视觉、触觉和本体感知的频率、噪声、空间分辨率和延迟都不同，同步和解释都不容易。系统需要从“多装几个传感器”走向真正的跨模态理解，在传感缺失、噪声和遮挡条件下仍能保持低延迟、可解释的闭环控制。

学习、控制和数据仍受泛化限制。模型控制依赖精确动力学，但复杂接触很难建模；学习方法进展很快，却面临分布偏移、安全性、算力成本和真实迁移问题。数据层面，长时序交互、失败案例、恢复行为和触觉信息仍然不足。后续研究不能只优化 benchmark，还要让语言目标、视觉目标和物理执行在真实系统里对得上。

系统集成和产业化仍有距离。高性能灵巧手制造和维护成本高，低成本方案又容易牺牲传感质量、材料寿命和长期可靠性。训练成本、部署成本和 sim-to-real 差距也限制了规模化应用。标准化接口、模块化手指/关节/传感器、统一评测协议和可替换组件，会直接影响灵巧手能否从实验平台走向实际部署。

结语

灵巧手智能不是某个单点技术的胜利。驱动和传动决定动作边界，感知决定闭环能力，学习和控制决定策略怎样形成，数据集和评测协议决定能力怎样被训练、验证和比较。

现在的灵巧手已经能在手内操作、抓取拾放、工具使用、人机交互和双手协作中展示相当复杂的能力。但离稳定、低成本、可维护、可大规模部署的系统，还有明显距离。下一步的进展，很可能来自几件事的同时推进：更容易制造的硬件，更可靠的多模态感知，更能迁移的数据和策略，更严格的可靠性评测，以及更接近工程现场的系统集成方式。

参考资料：https://arxiv.org/abs/2605.13925

免责声明

1、我们整理、翻译和转载此文出于传播更多资讯之目的，不代表本号观点，亦不构成任何投资观点，由此做出的投资决策与本人本文无关！

2、本文所用的视频、图片、文字如涉及作品版权问题，请第一时间联系小编：16620948826（同微信），我们将立即删除，无任何商业用途！

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。