【国际动态】机器人会写代码了!英伟达开源 CaP-X 框架:让大模型现场编写 Python 操控自己
发布时间:2026-04-05来源:机器人全球资讯

来源:机器人全球资讯网
【圣何塞讯】 2026年4月2日,英伟达(NVIDIA)正式开源了全新的机器人操控框架 CaP-X(Code-as-Policy X)。该框架的核心突破在于,它让机器人不再只是被动执行预设指令,而是能通过大语言模型(LLM)“看着”摄像头画面,现场编写 Python 代码来控制自己的动作。

从“下指令”到“写程序”:具身智能的逻辑进化
CaP-X 彻底改变了机器人的学习路径,将大模型从“指挥官”变成了“程序员”:
自主编程: 机器人感知环境后,会自主生成包含感知和控制原语的 Python 代码。例如:看到桌上的瓶子,它会写一段代码调用视觉 API 定位,再写一段代码驱动机械臂抓取。 技能库积累: 如果生成的代码成功完成了任务,CaP-X 会将其自动存入“技能库”。这就像给机器人装了一个“大脑外挂”,随着任务增加,它的技能库会不断进化。 跨形态复用: 最具颠覆性的一点是,这些代码技能可以在不同形态的机器人(如机械臂、人形机器人、四足狗)之间复用,无需针对每种硬件重新训练。
核心组件:全链路开发工具包
CaP-X 不仅是一个模型,而是一整套工具链:
CaP-Gym: 一个基于 Gymnasium 接口的交互式训练环境,实现“代码即策略”。 CaP-Agent0: 一个无需针对特定任务训练的智能体,在多项操纵任务中,其成功率已追平甚至超越人类专家代码。 CaP-RL: 引入强化学习进化算法,让 7B 规模的小模型在仅 50 次迭代后,任务成功率从 20% 飙升至 72%。
行业影响:具身智能的“Harness”时代
英伟达机器人研究主管 Jim Fan 表示,CaP-X 的开源标志着机器人正式进入“智能体时代”。它证明了逻辑推理路线在具身智能中具备极强竞争力,甚至在某些精细操作任务上优于传统的端到端黑盒模型。
对于开发者而言,这意味着只要会写 Python 的 API 接口,就能轻松“驱动”复杂的物理机器人,极大降低了具身智能的开发门槛。
本报道基于 2026 年 4 月英伟达官方开源信息及 Jim Fan 公开发言整理。
点击上方“机器人全球资讯”,关注后了解更多有意思的知识! 欢迎把本公众号推荐给您的同道中人! (麻烦读者小伙伴加个星标,不加星标经常看不到新文章。)
转载说明:本文系转载内容,版权归原作者及原出处所有。转载目的在于传递更多行业信息,文章观点仅代表原作者本人,与本平台立场无关。若涉及作品版权问题,请原作者或相关权利人及时与本平台联系,我们将在第一时间核实后移除相关内容。
