机器人竞争进入“大脑时代”,Motubrain 给出 World Action Model 新答案


加入高工机器人专业行业群,加微信:18565829548,出示名片,仅限机器人及智能制造产业链相关企业。
当机器人硬件的精度、成本、可靠性逐步接近产业临界点,行业的共识逐渐达成,制约机器人大规模落地的真正瓶颈,早已不在“手脚”,而在“大脑”。
过去几年,我们看到大量新型本体、灵巧手、移动平台快速迭代,根据高工机器人产业研究所(GGII)的测算,2025年人形机器人出货量约为1.8万台,越来越多机器人开始接受真实场景下,长序列任务和环境干扰的考验。
在现实面前,我们发现,绝大多数机器人依然是任务专用、场景固化、泛化极弱的“专用机器”。换一个场景、换一个物体、换一条指令,系统就容易失效。其本质,是现阶段机器人智能能力割裂:感知不懂环境、推理不会规划、执行不稳长程动作,更谈不上跨任务、跨本体的通用能力。
具身智能的终极命题,也许正在于此:构建一个统一模型,既能理解物理世界、预测状态变化,又能据此生成稳定可靠的动作,从而适配更广泛的任务与场景。
资本早已嗅到拐点。新一轮全球具身智能大额融资,资金明显从“造硬件”转向“造大脑”。根据高工机器人不完全统计,仅2026年第一季度,世界模型与数据采集相关领域融资规模已超过300亿元。
与此同时,如千寻智能、星海图、自变量、智平方等一批新晋百亿估值企业,其核心标签亦逐渐收敛为“具身大模型企业”。可以说,资本表面投的是机器人企业,深层争夺的是下一代“机器人操作系统”乃至“通用物理大脑”的入口。

三大技术路线的分野与收敛
2025年以来,围绕如何构建机器人大脑,行业已逐步形成几条有代表性的技术路线。
第一条路线可以概括为“统一世界模型”,通过视觉、语言、视频与动作的联合建模,融合视频生成模型、VLA(Vision-Language-Action)、世界模型等能力,实现对真实环境的感知、规划、预测、执行和跨任务泛化。这条路径的代表包括谷歌的RT系列、斯坦福的Octo等,强调用一个模型覆盖从感知到执行的完整链路。
第二条路线更偏向“先想象、再行动”,先用视频生成模型预测未来状态——比如物体移动轨迹、环境变化趋势——再反向指导机器人动作决策。这种方法的优势在于可以利用海量互联网视频数据预训练,但挑战在于“想象”和“行动”之间存在鸿沟,预测出的未来未必是机器人实际能够执行的。
第三条则是“同步推演未来状态+生成动作”的路线,也就是边推演边行动的World Action Model(世界行动模型)。这条路线的核心假设是:真正智能的行动,必须建立在对物理世界动态规律的理解之上;而理解世界的最好方式,就是在行动的同时推演其后果。
这三条路线各有拥趸,但一个根本问题始终悬而未决:预测世界的能力和驱动行动的能力,能否被统一在同一个模型里?
Motubrain:从验证到产品化
2025年12月,生数科技开源了Motus,在行业内首次明确提出并验证了World Action Models的核心思想,其统一世界-动作建模、从动作拟合到世界理解、异构数据吸收能力、多基座模型融合、多任务正向scaling的尝试为通用世界行动模型的发展奠定了基础。
如果说Motus为通用世界行动模型发展奠定基础,生数科技在此之上最新发布的Motubrain则是其商业版本,其核心定位清晰:通用世界行动模型(World Action Model,WAM)。它为行动而生,强调的不再是某一个单点任务的表现,而是面向真实世界构建统一行动能力。
它的底层逻辑,明显区别于传统方案:
首先,Motubrain通过UniDiffuser来统一建模和调度video和action两个连续模态,从而建模video和action的所有交互可能,一次训练即可推理五种模式,包括VLA、世界模型、视频生成模型、逆动力学模型、视频动作联合预测五类分布。
其次,video generation model、action与语言建立三流MoT架构,融合各种现在已有的预训练基座模型(专家模型),充分地融合各类多模态的先验,可以同时理解场景、处理语言指令、预测结果和生成动作,从而克服了传统方法碎片化功能的局限性。Motubrain通过这种方式实现了高语义理解和遵循能力,摆脱了VLA语义遵循能力差的问题。
Motubrain拥有四大核心能力:
传统机器人模型,任务一多就互相干扰、性能下降。Motubrain呈现出的特征则是,Motubrain能够在多任务场景中保持稳定表现,不依赖单一任务训练。随着任务数量增加,任务之间的世界知识共享越多,模型的平均成功率同步提升;展现出更强的多任务统一能力与泛化能力。
行业长期痛点是,本体一变,模型就要重训、重调、重适配,成本极高、生态割裂。Motubrain并不是为某一种机器人量身定制,而是多机器人本体设计的统一智能底座。它具备多本体适配能力,有望打破“一个机器人一个模型”的传统模式。
模型能充分利用异构数据,随着生态内机器人种类、场景和数据不断丰富,模型能力还能够持续提升,形成更强的通用性,并进一步反哺生态内每一类机器人的表现。
真实世界任务往往是长链路、多步骤、强关联的(比如整理桌面、准备物料、装配零件)。传统方案必须依赖上层任务规划器、任务拆解模块、快慢双系统、多模型拼接。
Motubrain用单个世界行动模型,即可完成10个原子动作级别的复杂长程任务,而不止停留在2-3个原子动作的Demo展示。机器人面对的,不再只是一个个孤立动作,而是一项需要持续推进、完整闭环的任务,无需中间拆解,链路更短、决策更快、一致性更强。
Motubrain不只是执行指令,更能够理解世界并预测环境变化,并据此推演更合理的动作与运动路径。通过将理解世界、预测世界和执行动作统一建模,模型能够在动态场景中持续判断、调整与行动,实现“预测世界,也驱动行动”。

总的来说,Motubrain不是又一个面向单点任务优化的模型,而是试图回答一个更核心的问题:机器人能否拥有一个统一的大脑,同时具备预测世界、预测变化与驱动行动的能力。
Motubrain的背后,对应的是更为宏大的逻辑:生数科技更完整的通用世界模型战略。
在长期的视频大模型技术积累基础上,生数科技基于原创的U-ViT架构的底层能力,在数字空间打造的世界生成模型(WGM)与在物理空间打造的世界行动模型(WAM),构建起贯通预测世界、生成世界与行动于世界的完整技术闭环,形成面向通用智能的核心基础架构。

从这个角度看,Motubrain的意义不只是一个新模型发布,而是生数科技正在把通用世界模型从数字内容生成,进一步推进到物理世界行动。这是从“理解世界”到“改变世界”的能力跃迁。
拿下双榜第一的意义
前段时间,匿名拿下双榜第一的Motubrain被生数科技认领,Motubrain成为全球为数不多在世界理解与任务执行两个国际benchmark上同时登顶的模型。
WorldArena衡量的是世界模型是否真正理解和预测现实世界——更偏“预测世界”的能力。Motubrain总体EWM Score达到63.77,排名第一,超越高德ABot、极佳GigaWorld-1等同类模型。更值得注意的是,在Motion Quality、Flow Score、Motion Smoothness等多个关键运动维度中,Motubrain均排名第一。

这三个运动维度恰恰是衡量“理解物理世界”的核心指标。Motion Quality反映动作是否真实,不只是“看起来像在动”;Flow Score考察对连续运动和轨迹变化的理解深度;Motion Smoothness检验动作是否符合真实物理规律。对于未来机器人的世界模型来说,最核心的不是画面是否逼真,而是是否真正理解真实世界中的运动和物理变化。
RoboTwin2.0衡量的是机器人任务执行能力与泛化能力——更偏“在世界中行动”的能力。Motubrain在Clean和Randomized两个场景下分别达到95.8和96.1,同样排名第一,是榜单上唯一一个在随机环境下平均分超过95的模型。面对50个任务、两种不同环境设置,一半任务成功率达到100%,九成任务超过90%。


这意味着它体现出的并不是单项任务的“偶然强”,而是一种更接近通用机器人大脑的能力特征:动作层面的连续与一致、复杂环境中的稳定执行、跨任务跨场景的泛化能力、在随机扰动下依然能复现结果。
这两个榜单之所以关键,是因为它们测量的是两种长期被割裂的核心能力。过去几年,这两个方向各自都有不少团队在探索,但大多是割裂的:有的更擅长看懂世界,却不知道该怎么动;有的能执行固定动作,却对环境变化缺乏预判。Motubrain能够同时在两类benchmark上问鼎,至少在benchmark层面验证了一件事:把预测世界和驱动行动统一在同一个模型里,这条路是走得通的。
平心而论,在“微调、打榜、定制模型”之下,benchmark毕竟是“榜单”,并不完全等价于真实世界中的长期稳定能力。生数科技显然深知此意,除了模型本身的技术突破,最近其产业动作也值得关注,生数科技已先后与无界动力、深朴智能、星尘智能等具身智能企业达成战略合作。

这些合作的意义在于,它们让Motubrain不只停留在“技术验证”层面,而是进一步形成了“模型能力—本体适配—场景落地”的完整叙事。
机器人大脑的分水岭时刻
回到行业更大的图景。
机器人硬件的快速迭代和市场对具身智能的高度关注,正在创造一个前所未有的窗口期。但这个窗口期的真正赢家,可能不是某一家机器人本体厂商,而是那个能够定义“下一代机器人大脑”的模型厂商。
原因很简单,如果通用机器人大脑真的成立,那么它将成为整个行业的核心基础设施。所有的机器人本体,不同构型、不同品牌的机器人都将运行在这颗大脑之上。这颗大脑所代表的,是比任何单一硬件形态都更底层、更本质的竞争力。
从Motus的开源验证,到Motubrain的产品化落地,再到双榜第一的技术实证,生数科技正在这条路径上持续前进。他们的世界行动模型路线,至少已经在一个关键问题上给出了答案:预测世界的能力和驱动行动的能力,可以在同一个模型中共存,并且相互增强。
至于这颗“通用大脑”能否在更开放、更复杂、更不可预测的真实世界中同样成立,那是整个行业接下来需要共同回答的问题。而这个问题的答案,将决定具身智能下一个十年的走向。




毛利率承压,禾川科技2025年亏损1.30亿元
零部件上市公司2025年机器人业务大增74.57%

