这次登顶 RoboChallenge 的,终于是「能干活」的机器人了

作者丨高景辉
编辑丨马晓宁

具身智能的热度之高毋庸置疑,就连我们身边不关注科技新闻的人,刷短视频也能时不时刷到几条机器人。我们也时不时听到这样的疑问,机器人都这么厉害了,怎么现在街头巷尾,还是看不到多少干活的机器人呢?
在机器人本体和控制逐渐成熟的现在,莫拉维克悖论就显得更具有先知意义了:对人类来说需要复杂推理和计算的高阶认知任务,计算机容易实现;而对人类而言看似简单的低级感知与运动技能,就算机器人的身体学会了,但是它们的大脑还学不会。机器人不去干活,是因为它们不想吗?是因为它们不会啊。

许多具身公司都会将物流分拣当成展示机器人能力的一个窗口,Figure 03人形机器人现在美国某个物流仓库里昼夜不停地直播分拣,但真的物流分拣人员看了估计要摇头:哪有这么规规整整的包裹,哪有这么不急不躁、安静明亮的工作环境啊。
具身机器人要想做好泛化性,在随机环境下还能把工作干好,最重要的技术难点仍然是具身大脑。不少公司都在不断推出最新的大脑模型,还附加各种宣传,但是除了真正的技术专家外,大部分人对于一款大脑模型有多强,还是无感的。所以星动纪元(Robotera)发布它的自研具身模型Era0登顶 RoboChallenge 榜单的消息时,我的第一反应是,这真的能证明他很厉害吗?


01
一个三明治,
怎么就难倒了一堆机器人?
这实在不能怪我太钝感。主要是这两年来,我们也是被各类大模型榜单轰炸到疲惫了。今天这个第一,明天那个最强,实际呢,还是要用户体验说了算。
具身模型的能力,要在真机评测上去体验。如果短期内还不能达到人手一台的使用率,那我们可以借助第三方的体验。仔细查查RoboChallenge,原来这还真是全球首个大规模具身真机评测榜单。那就让这些模型全部上真机,让所有人都可以一眼直观地看出,它们水平到底如何。
RoboChallenge 怎么去测试具身模型能力呢?他的规定是,在标准化真机环境中,所有参测模型必须完整通过 30 个不同任务才能进入总榜,同时测试环境全程随机化,物体的摆放位置、光照条件、初始姿态每次都不同,而且所有测试数据完全公开,杜绝了现场调参作弊的可能。
我在 RoboChallenge 的官网上发现了他们公开的30个评测任务和得分榜单,其中SR代表任务成功率,Score代表任务得分率。ERA0在两项任务中实现了成功率与过程得分的双满分表现,一项是把开瓶器放入抽屉(put_opener_in_drawer),一项是拧开水龙头(turn_on_faucet)。


还有两个任务比较出众,原因是在 Top8 模型中,Era0是唯一一个取得非零成绩的模型。一项是做素食三明治(make_vegetarian_sandwich),该任务涉及多步骤、真实食材处理和精细摆放,整体难度较高,Era0 成功率为 20%。一项是擦桌子(wipe_the_table),Era0 在此任务上取得 60% 的成功率。


这两项任务之所以高难,因为很多要求超出了现在模型的普遍能力。就说制作一个简单的素食三明治,就涉及到了多个步骤,机器人要依次完成取面包、放生菜、加番茄片、盖另一片面包、切成两半等。人手拿起来一个生菜叶子很简单,机械臂拿起来,稍微大力一点生菜就烂了。
大部分具身模型缺乏对全局进度的感知,缺乏对全局进度的感知,很容易忘记已经完成到哪一步,盖了面包片就完事儿了;或在发生小失误后无法进行修正,番茄掉了捡不起来等等,那这个任务基本上就直接失败了。
所以做三明治,不仅需要模型拥有长程时序规划能力,还要有多食材的精细操作能力。Era0能得分,说明这款模型也在双臂协同、柔性物体操作、多视角感知、长时序记忆等多个核心能力维度上均展现出显著优势。
如此说来,能够看到真机实测过程中的真实视频和客观评分,我们对 Era0 的能力范畴就有一些把握了。
02
夺冠的秘诀,在于每一个细节
但是仍然会有一些疑问,比如说都是做模型,大部分都是走的VLA+世界模型路线,凭什么 Era0 就要更强一些?
星动纪元 Era0 做三明治的例子,让我想起不久前 Genesis 的 GENE-26.5 做“番茄炒蛋”的 demo,当时其流畅的动作惊艳了不少业者。
Genesis为什么能让机器人把活干得这么好?创始人周衔曾在采访中说,Genesis AI 要做的是整套系统。的确,Genesis是从全局视角重新审视整个系统:他们在硬件层面最大限度地缩小差距;在工作中捕捉高保真数据;通过优化控制减少延迟和跟踪误差……
星动纪元的 Era0 也是同样的道理,Era0 的成功,绝不能说是某一项环节上做对了,很大程度上得益于从数据到推理全链路的系统性优化。
首先在数据层面,星动纪元建立了一套量化的数据质检与处理标准操作流程。
要知道,原始数据中存在大量噪声。静止帧、异常动作、元信息不匹配等问题,都会影响模型的训练效果。而星动纪元的 SOP 涵盖了静止帧清理、异常数据筛查、元信息对齐以及人工抽检等环节,从源头保证了训练数据的质量。
在此基础上,星动纪元积累了大规模跨本体预训练动作数据。这些数据覆盖了丰富的操作场景,让 Era0 具备了扎实的基础动作执行能力。跨本体训练策略也进一步提高了数据使用效率,使模型在不同机器人平台上都有很好的可迁移性。
在模型层面,Era0 采用了两项关键技术。
第一项是视觉定位感知增强策略。在预训练阶段,训练样本不仅包含高层语义信息,还同时标注了目标在图像中的具体位置。这强化了模型的视觉感知能力,让它能够更准确地识别物体并定位抓取点。

第二项是短程时序记忆机制。Table30 中的很多任务都存在历史依赖现象。比如擦桌子,机器人需要记住哪些区域已经擦过,哪些还没有。仅凭当前单帧观测,模型无法判断任务状态,容易陷入动作循环。
时序记忆机制让模型能够关注到近期已发生的动作状态。它会记住过去几帧的观测和动作,结合当前信息做出决策。这有效解决了非马尔可夫状态下的歧义问题,让长程任务的执行更加稳定。


Era0在双臂协同、柔性物体操作、多视角感知、分类任务、长时序任务等多个灵巧操作核心维度上均位列第一
在工程与推理层面,星动纪元也做了大量优化:
训练阶段,他们采用 15Hz 的数据进行训练,提高了训练效率。训练完成后,增加了基于训练数据的回放拟合验证环节。这个环节能够发现仅通过损失曲线难以暴露的问题,比如数据中的异常样本和噪声干扰。
推理阶段,为了使动作轨迹更加连续平滑,他们加入了动作插值。这减少了机械臂的抖动和误差累积,提升了真机执行的稳定性。同时,通过合理配置执行步长和动作执行时间,保证了操作精度。对夹爪动作的后处理,也进一步提高了抓取的稳定性。
DeepMind研究员姚顺宇有一个判断:大模型领域最稀缺的不是天才,而是靠谱、对自己做的事情负责的人。这种“靠谱精神”,恰恰也是具身智能突围的关键。
星动纪元 Era0 模型的训练过程,同样遵循这个原则。Era0 在 RoboChallenge 上的夺冠没有捷径,靠的是百 TB 级的真实交互数据积累,融合VLA与世界模型的训练推理闭环,以及团队都在每一个可能被忽略的节点上死磕。正是这些“微小到不起眼”的细节被极致优化,成功率才得以一步步提升,最终实现质的飞跃。

星动纪元Era0 模型在RoboChallenge不同任务上的表现
03
商业化场景,才是真正的“大考”
就在 Figure 还在网上直播的时候,星动纪元已经开始进入了实际场景,并且是同样的物流分拣场景。星动纪元自研人形机器人“星动M7”,不久前在中国邮政广州邮区中心正式上岗,能分拣软包、硬盒、不同规格包裹,还能翻转包裹确保面单朝上,同时有识别异常件的功能。今年Q2星动纪元还要开启千台级批量交付。

客户愿意为机器人买单,某种程度上也是具身智能真正可以被称为一个行业的开端。过去几年,行业的核心矛盾是 “能不能做”,大家比拼的是谁能先在实验室里实现某个单点功能;而现在,行业的核心矛盾已经变成了 “能不能用”,比拼的是谁能把技术变成可批量交付、可稳定运行、可盈利的产品。
在物流分拣中心,机器人要面对的不是固定的 30 种物品,而是每天数以万计、形态各异的包裹;在工厂车间,它要适应的不是恒定的光照和温度,而是昼夜交替的光线变化、设备运行的震动和粉尘;在商业场景中,它还要满足 7×24 小时不间断运行的稳定性要求。这些在榜单中不会被考核的指标,恰恰是商业化公司必须跨越的生死线。
能够被物流客户认可,根本原因是 Era0 模型的优势,满足了物流行业的需求。Era0 有一套标准化的数据预处理流程(清洗、去噪、质检),就可以确保用来训练模型的数据是真实可信且高质量的,同时也能提升模型的学习效率。最终,训练出的模型应用到物流分拣场景时,会表现出三个具体的优势:识别更准确、误判更少、运行更稳定。
“增强型视觉定位感知”等于给机器人装上了一双既聪明又带距离感的眼睛,一眼就能认出传送带上是哪类商品,同时精确计算出手臂该伸到哪里、以什么角度去抓,从而让一条分拣线灵活处理成千上百种不同的货品。
规模化跨本体预训练,可以让能力快速迁移到物流抓取、搬运、摆放等分拣动作,适配不同设备与场景,落地更快。
同时时序记忆决策能力、高效训练迭代、以及真机执行动作稳定精准等等特征,都意味着在分拣操作上,流程连贯效率高、抓取稳定失误少。
假设每个环节提升10%,那么十个环节的提升就能带来两倍多的改善。具身智能真正能够实用起来,就在于连续、微小优化带来的系统性的效果提升,给客户带来显著的实用性。这就是我们从星动纪元身上学到的经验。
04
打榜不是终点,“落地”刚刚开始
比赛结果,是具身智能大脑技术实力的试金石。在权威赛事中脱颖而出,意味着一款模型在泛化性、鲁棒性、操作精度等核心维度上经受了最严苛的检验,获得了学术界与产业界的共同认可。
但必须清醒地认识到,“打榜” 从来都不是具身智能行业的终极目标,它只是验证技术可行性的中间环节,真正决定一家企业能走多远、整个行业能走多快的,永远是落地能力。
具身智能行业已经走到了一个关键的转折点。过去几年,行业的核心矛盾是 “能不能做”,大家比拼的是谁能先在实验室里实现某个单点功能;而现在,行业的核心矛盾已经变成了 “能不能用”,比拼的是谁能把技术变成可批量交付、可稳定运行、可盈利的产品。未来具身智能的竞争战场一定会从赛场转向工厂、仓库、餐厅、医院等真实场景。
目前物流行业是星动纪元的第一个落地场景。基于通用具身基座,Era0 的能力可以拓展到更多行业。比如在制造业,机器人可以完成装配、检测、搬运等任务。在服务业,机器人可以在餐厅、酒店、医院等场所提供服务。端茶倒水、清洁卫生、配送物品,这些都是 Era0 已经具备的能力。

星动纪元的 "AI Native 全栈" 技术路线,让他们能够快速响应不同行业的需求,不需要为每个行业重新开发模型,只需要在通用基座的基础上进行微调,就能快速适配新的场景。
如果有一天,大街小巷都是机器人工作的身影,具身智能涌现也就不是梦了。



对话简智朱雁鸣:不卷模型卷基建,具身智能核心是读懂人的数据

独家丨原智谱 AI 副总裁陈雪松加盟具身智能企业「原力灵机」

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
