这次登顶 RoboChallenge 的，终于是「能干活」的机器人了

发布时间：2026-05-22来源：AI科技评论

RoboChallenge夺冠只是开始，落地才是真正的“大考”。

作者丨高景辉

编辑丨马晓宁

具身智能的热度之高毋庸置疑，就连我们身边不关注科技新闻的人，刷短视频也能时不时刷到几条机器人。我们也时不时听到这样的疑问，机器人都这么厉害了，怎么现在街头巷尾，还是看不到多少干活的机器人呢？

在机器人本体和控制逐渐成熟的现在，莫拉维克悖论就显得更具有先知意义了：对人类来说需要复杂推理和计算的高阶认知任务，计算机容易实现；而对人类而言看似简单的低级感知与运动技能，就算机器人的身体学会了，但是它们的大脑还学不会。机器人不去干活，是因为它们不想吗？是因为它们不会啊。

许多具身公司都会将物流分拣当成展示机器人能力的一个窗口，Figure 03人形机器人现在美国某个物流仓库里昼夜不停地直播分拣，但真的物流分拣人员看了估计要摇头：哪有这么规规整整的包裹，哪有这么不急不躁、安静明亮的工作环境啊。

具身机器人要想做好泛化性，在随机环境下还能把工作干好，最重要的技术难点仍然是具身大脑。不少公司都在不断推出最新的大脑模型，还附加各种宣传，但是除了真正的技术专家外，大部分人对于一款大脑模型有多强，还是无感的。所以星动纪元（Robotera）发布它的自研具身模型Era0登顶 RoboChallenge 榜单的消息时，我的第一反应是，这真的能证明他很厉害吗？

一个三明治，

怎么就难倒了一堆机器人？

这实在不能怪我太钝感。主要是这两年来，我们也是被各类大模型榜单轰炸到疲惫了。今天这个第一，明天那个最强，实际呢，还是要用户体验说了算。

具身模型的能力，要在真机评测上去体验。如果短期内还不能达到人手一台的使用率，那我们可以借助第三方的体验。仔细查查RoboChallenge，原来这还真是全球首个大规模具身真机评测榜单。那就让这些模型全部上真机，让所有人都可以一眼直观地看出，它们水平到底如何。

RoboChallenge 怎么去测试具身模型能力呢？他的规定是，在标准化真机环境中，所有参测模型必须完整通过 30 个不同任务才能进入总榜，同时测试环境全程随机化，物体的摆放位置、光照条件、初始姿态每次都不同，而且所有测试数据完全公开，杜绝了现场调参作弊的可能。

我在 RoboChallenge 的官网上发现了他们公开的30个评测任务和得分榜单，其中SR代表任务成功率，Score代表任务得分率。ERA0在两项任务中实现了成功率与过程得分的双满分表现，一项是把开瓶器放入抽屉（put_opener_in_drawer），一项是拧开水龙头（turn_on_faucet）。

还有两个任务比较出众，原因是在 Top8 模型中，Era0是唯一一个取得非零成绩的模型。一项是做素食三明治（make_vegetarian_sandwich），该任务涉及多步骤、真实食材处理和精细摆放，整体难度较高，Era0 成功率为 20%。一项是擦桌子（wipe_the_table），Era0 在此任务上取得 60% 的成功率。

这两项任务之所以高难，因为很多要求超出了现在模型的普遍能力。就说制作一个简单的素食三明治，就涉及到了多个步骤，机器人要依次完成取面包、放生菜、加番茄片、盖另一片面包、切成两半等。人手拿起来一个生菜叶子很简单，机械臂拿起来，稍微大力一点生菜就烂了。

大部分具身模型缺乏对全局进度的感知，缺乏对全局进度的感知，很容易忘记已经完成到哪一步，盖了面包片就完事儿了；或在发生小失误后无法进行修正，番茄掉了捡不起来等等，那这个任务基本上就直接失败了。

所以做三明治，不仅需要模型拥有长程时序规划能力，还要有多食材的精细操作能力。Era0能得分，说明这款模型也在双臂协同、柔性物体操作、多视角感知、长时序记忆等多个核心能力维度上均展现出显著优势。

如此说来，能够看到真机实测过程中的真实视频和客观评分，我们对 Era0 的能力范畴就有一些把握了。

夺冠的秘诀，在于每一个细节

但是仍然会有一些疑问，比如说都是做模型，大部分都是走的VLA+世界模型路线，凭什么 Era0 就要更强一些？

星动纪元 Era0 做三明治的例子，让我想起不久前 Genesis 的 GENE-26.5 做“番茄炒蛋”的 demo，当时其流畅的动作惊艳了不少业者。

Genesis为什么能让机器人把活干得这么好？创始人周衔曾在采访中说，Genesis AI 要做的是整套系统。的确，Genesis是从全局视角重新审视整个系统：他们在硬件层面最大限度地缩小差距；在工作中捕捉高保真数据；通过优化控制减少延迟和跟踪误差……

星动纪元的 Era0 也是同样的道理，Era0 的成功，绝不能说是某一项环节上做对了，很大程度上得益于从数据到推理全链路的系统性优化。

首先在数据层面，星动纪元建立了一套量化的数据质检与处理标准操作流程。

要知道，原始数据中存在大量噪声。静止帧、异常动作、元信息不匹配等问题，都会影响模型的训练效果。而星动纪元的 SOP 涵盖了静止帧清理、异常数据筛查、元信息对齐以及人工抽检等环节，从源头保证了训练数据的质量。

在此基础上，星动纪元积累了大规模跨本体预训练动作数据。这些数据覆盖了丰富的操作场景，让 Era0 具备了扎实的基础动作执行能力。跨本体训练策略也进一步提高了数据使用效率，使模型在不同机器人平台上都有很好的可迁移性。

在模型层面，Era0 采用了两项关键技术。

第一项是视觉定位感知增强策略。在预训练阶段，训练样本不仅包含高层语义信息，还同时标注了目标在图像中的具体位置。这强化了模型的视觉感知能力，让它能够更准确地识别物体并定位抓取点。

第二项是短程时序记忆机制。Table30 中的很多任务都存在历史依赖现象。比如擦桌子，机器人需要记住哪些区域已经擦过，哪些还没有。仅凭当前单帧观测，模型无法判断任务状态，容易陷入动作循环。

时序记忆机制让模型能够关注到近期已发生的动作状态。它会记住过去几帧的观测和动作，结合当前信息做出决策。这有效解决了非马尔可夫状态下的歧义问题，让长程任务的执行更加稳定。

Era0在双臂协同、柔性物体操作、多视角感知、分类任务、长时序任务等多个灵巧操作核心维度上均位列第一

在工程与推理层面，星动纪元也做了大量优化：

训练阶段，他们采用 15Hz 的数据进行训练，提高了训练效率。训练完成后，增加了基于训练数据的回放拟合验证环节。这个环节能够发现仅通过损失曲线难以暴露的问题，比如数据中的异常样本和噪声干扰。

推理阶段，为了使动作轨迹更加连续平滑，他们加入了动作插值。这减少了机械臂的抖动和误差累积，提升了真机执行的稳定性。同时，通过合理配置执行步长和动作执行时间，保证了操作精度。对夹爪动作的后处理，也进一步提高了抓取的稳定性。

DeepMind研究员姚顺宇有一个判断：大模型领域最稀缺的不是天才，而是靠谱、对自己做的事情负责的人。这种“靠谱精神”，恰恰也是具身智能突围的关键。

星动纪元 Era0 模型的训练过程，同样遵循这个原则。Era0 在 RoboChallenge 上的夺冠没有捷径，靠的是百 TB 级的真实交互数据积累，融合VLA与世界模型的训练推理闭环，以及团队都在每一个可能被忽略的节点上死磕。正是这些“微小到不起眼”的细节被极致优化，成功率才得以一步步提升，最终实现质的飞跃。

星动纪元Era0 模型在RoboChallenge不同任务上的表现

商业化场景，才是真正的“大考”

就在 Figure 还在网上直播的时候，星动纪元已经开始进入了实际场景，并且是同样的物流分拣场景。星动纪元自研人形机器人“星动M7”，不久前在中国邮政广州邮区中心正式上岗，能分拣软包、硬盒、不同规格包裹，还能翻转包裹确保面单朝上，同时有识别异常件的功能。今年Q2星动纪元还要开启千台级批量交付。

客户愿意为机器人买单，某种程度上也是具身智能真正可以被称为一个行业的开端。过去几年，行业的核心矛盾是 “能不能做”，大家比拼的是谁能先在实验室里实现某个单点功能；而现在，行业的核心矛盾已经变成了 “能不能用”，比拼的是谁能把技术变成可批量交付、可稳定运行、可盈利的产品。

在物流分拣中心，机器人要面对的不是固定的 30 种物品，而是每天数以万计、形态各异的包裹；在工厂车间，它要适应的不是恒定的光照和温度，而是昼夜交替的光线变化、设备运行的震动和粉尘；在商业场景中，它还要满足 7×24 小时不间断运行的稳定性要求。这些在榜单中不会被考核的指标，恰恰是商业化公司必须跨越的生死线。

能够被物流客户认可，根本原因是 Era0 模型的优势，满足了物流行业的需求。Era0 有一套标准化的数据预处理流程（清洗、去噪、质检），就可以确保用来训练模型的数据是真实可信且高质量的，同时也能提升模型的学习效率。最终，训练出的模型应用到物流分拣场景时，会表现出三个具体的优势：识别更准确、误判更少、运行更稳定。

“增强型视觉定位感知”等于给机器人装上了一双既聪明又带距离感的眼睛，一眼就能认出传送带上是哪类商品，同时精确计算出手臂该伸到哪里、以什么角度去抓，从而让一条分拣线灵活处理成千上百种不同的货品。

规模化跨本体预训练，可以让能力快速迁移到物流抓取、搬运、摆放等分拣动作，适配不同设备与场景，落地更快。

同时时序记忆决策能力、高效训练迭代、以及真机执行动作稳定精准等等特征，都意味着在分拣操作上，流程连贯效率高、抓取稳定失误少。

假设每个环节提升10%，那么十个环节的提升就能带来两倍多的改善。具身智能真正能够实用起来，就在于连续、微小优化带来的系统性的效果提升，给客户带来显著的实用性。这就是我们从星动纪元身上学到的经验。

打榜不是终点，“落地”刚刚开始

比赛结果，是具身智能大脑技术实力的试金石。在权威赛事中脱颖而出，意味着一款模型在泛化性、鲁棒性、操作精度等核心维度上经受了最严苛的检验，获得了学术界与产业界的共同认可。

但必须清醒地认识到，“打榜” 从来都不是具身智能行业的终极目标，它只是验证技术可行性的中间环节，真正决定一家企业能走多远、整个行业能走多快的，永远是落地能力。

具身智能行业已经走到了一个关键的转折点。过去几年，行业的核心矛盾是 “能不能做”，大家比拼的是谁能先在实验室里实现某个单点功能；而现在，行业的核心矛盾已经变成了 “能不能用”，比拼的是谁能把技术变成可批量交付、可稳定运行、可盈利的产品。未来具身智能的竞争战场一定会从赛场转向工厂、仓库、餐厅、医院等真实场景。

目前物流行业是星动纪元的第一个落地场景。基于通用具身基座，Era0 的能力可以拓展到更多行业。比如在制造业，机器人可以完成装配、检测、搬运等任务。在服务业，机器人可以在餐厅、酒店、医院等场所提供服务。端茶倒水、清洁卫生、配送物品，这些都是 Era0 已经具备的能力。