机器人竞争进入“大脑时代”，Motubrain 给出 World Action Model 新答案

发布时间：2026-04-29来源：高工机器人

加入高工机器人专业行业群，加微信：18565829548，出示名片，仅限机器人及智能制造产业链相关企业。

*本文共约 3682 字，阅读完成需 7.5 分钟。

当机器人硬件的精度、成本、可靠性逐步接近产业临界点，行业的共识逐渐达成，制约机器人大规模落地的真正瓶颈，早已不在“手脚”，而在“大脑”。

过去几年，我们看到大量新型本体、灵巧手、移动平台快速迭代，根据高工机器人产业研究所（GGII）的测算，2025年人形机器人出货量约为1.8万台，越来越多机器人开始接受真实场景下，长序列任务和环境干扰的考验。

在现实面前，我们发现，绝大多数机器人依然是任务专用、场景固化、泛化极弱的“专用机器”。换一个场景、换一个物体、换一条指令，系统就容易失效。其本质，是现阶段机器人智能能力割裂：感知不懂环境、推理不会规划、执行不稳长程动作，更谈不上跨任务、跨本体的通用能力。

具身智能的终极命题，也许正在于此：构建一个统一模型，既能理解物理世界、预测状态变化，又能据此生成稳定可靠的动作，从而适配更广泛的任务与场景。

资本早已嗅到拐点。新一轮全球具身智能大额融资，资金明显从“造硬件”转向“造大脑”。根据高工机器人不完全统计，仅2026年第一季度，世界模型与数据采集相关领域融资规模已超过300亿元。

与此同时，如千寻智能、星海图、自变量、智平方等一批新晋百亿估值企业，其核心标签亦逐渐收敛为“具身大模型企业”。可以说，资本表面投的是机器人企业，深层争夺的是下一代“机器人操作系统”乃至“通用物理大脑”的入口。

三大技术路线的分野与收敛

2025年以来，围绕如何构建机器人大脑，行业已逐步形成几条有代表性的技术路线。

第一条路线可以概括为“统一世界模型”，通过视觉、语言、视频与动作的联合建模，融合视频生成模型、VLA（Vision-Language-Action）、世界模型等能力，实现对真实环境的感知、规划、预测、执行和跨任务泛化。这条路径的代表包括谷歌的RT系列、斯坦福的Octo等，强调用一个模型覆盖从感知到执行的完整链路。

第二条路线更偏向“先想象、再行动”，先用视频生成模型预测未来状态——比如物体移动轨迹、环境变化趋势——再反向指导机器人动作决策。这种方法的优势在于可以利用海量互联网视频数据预训练，但挑战在于“想象”和“行动”之间存在鸿沟，预测出的未来未必是机器人实际能够执行的。

第三条则是“同步推演未来状态+生成动作”的路线，也就是边推演边行动的World Action Model（世界行动模型）。这条路线的核心假设是：真正智能的行动，必须建立在对物理世界动态规律的理解之上；而理解世界的最好方式，就是在行动的同时推演其后果。

这三条路线各有拥趸，但一个根本问题始终悬而未决：预测世界的能力和驱动行动的能力，能否被统一在同一个模型里？

Motubrain：从验证到产品化

2025年12月，生数科技开源了Motus，在行业内首次明确提出并验证了World Action Models的核心思想，其统一世界-动作建模、从动作拟合到世界理解、异构数据吸收能力、多基座模型融合、多任务正向scaling的尝试为通用世界行动模型的发展奠定了基础。

如果说Motus为通用世界行动模型发展奠定基础，生数科技在此之上最新发布的Motubrain则是其商业版本，其核心定位清晰：通用世界行动模型（World Action Model,WAM）。它为行动而生，强调的不再是某一个单点任务的表现，而是面向真实世界构建统一行动能力。

它的底层逻辑，明显区别于传统方案：

首先，Motubrain通过UniDiffuser来统一建模和调度video和action两个连续模态，从而建模video和action的所有交互可能，一次训练即可推理五种模式，包括VLA、世界模型、视频生成模型、逆动力学模型、视频动作联合预测五类分布。

其次，video generation model、action与语言建立三流MoT架构，融合各种现在已有的预训练基座模型（专家模型），充分地融合各类多模态的先验，可以同时理解场景、处理语言指令、预测结果和生成动作，从而克服了传统方法碎片化功能的局限性。Motubrain通过这种方式实现了高语义理解和遵循能力，摆脱了VLA语义遵循能力差的问题。

Motubrain拥有四大核心能力：

一脑多能：任务越多，能力越强

传统机器人模型，任务一多就互相干扰、性能下降。Motubrain呈现出的特征则是，Motubrain能够在多任务场景中保持稳定表现，不依赖单一任务训练。随着任务数量增加，任务之间的世界知识共享越多，模型的平均成功率同步提升；展现出更强的多任务统一能力与泛化能力。

一脑多型：打破“一个机器人一个模型”

行业长期痛点是，本体一变，模型就要重训、重调、重适配，成本极高、生态割裂。Motubrain并不是为某一种机器人量身定制，而是多机器人本体设计的统一智能底座。它具备多本体适配能力，有望打破“一个机器人一个模型”的传统模式。

模型能充分利用异构数据，随着生态内机器人种类、场景和数据不断丰富，模型能力还能够持续提升，形成更强的通用性，并进一步反哺生态内每一类机器人的表现。

一脑贯通：长程任务一步完成

真实世界任务往往是长链路、多步骤、强关联的（比如整理桌面、准备物料、装配零件）。传统方案必须依赖上层任务规划器、任务拆解模块、快慢双系统、多模型拼接。

Motubrain用单个世界行动模型，即可完成10个原子动作级别的复杂长程任务，而不止停留在2-3个原子动作的Demo展示。机器人面对的，不再只是一个个孤立动作，而是一项需要持续推进、完整闭环的任务，无需中间拆解，链路更短、决策更快、一致性更强。

一脑预见，实现动态决策

Motubrain不只是执行指令，更能够理解世界并预测环境变化，并据此推演更合理的动作与运动路径。通过将理解世界、预测世界和执行动作统一建模，模型能够在动态场景中持续判断、调整与行动，实现“预测世界，也驱动行动”。

总的来说，Motubrain不是又一个面向单点任务优化的模型，而是试图回答一个更核心的问题：机器人能否拥有一个统一的大脑，同时具备预测世界、预测变化与驱动行动的能力。

Motubrain的背后，对应的是更为宏大的逻辑：生数科技更完整的通用世界模型战略。

在长期的视频大模型技术积累基础上，生数科技基于原创的U-ViT架构的底层能力，在数字空间打造的世界生成模型（WGM）与在物理空间打造的世界行动模型（WAM），构建起贯通预测世界、生成世界与行动于世界的完整技术闭环，形成面向通用智能的核心基础架构。

从这个角度看，Motubrain的意义不只是一个新模型发布，而是生数科技正在把通用世界模型从数字内容生成，进一步推进到物理世界行动。这是从“理解世界”到“改变世界”的能力跃迁。

拿下双榜第一的意义

前段时间，匿名拿下双榜第一的Motubrain被生数科技认领，Motubrain成为全球为数不多在世界理解与任务执行两个国际benchmark上同时登顶的模型。

WorldArena衡量的是世界模型是否真正理解和预测现实世界——更偏“预测世界”的能力。Motubrain总体EWM Score达到63.77，排名第一，超越高德ABot、极佳GigaWorld-1等同类模型。更值得注意的是，在Motion Quality、Flow Score、Motion Smoothness等多个关键运动维度中，Motubrain均排名第一。

这三个运动维度恰恰是衡量“理解物理世界”的核心指标。Motion Quality反映动作是否真实，不只是“看起来像在动”；Flow Score考察对连续运动和轨迹变化的理解深度；Motion Smoothness检验动作是否符合真实物理规律。对于未来机器人的世界模型来说，最核心的不是画面是否逼真，而是是否真正理解真实世界中的运动和物理变化。

RoboTwin2.0衡量的是机器人任务执行能力与泛化能力——更偏“在世界中行动”的能力。Motubrain在Clean和Randomized两个场景下分别达到95.8和96.1，同样排名第一，是榜单上唯一一个在随机环境下平均分超过95的模型。面对50个任务、两种不同环境设置，一半任务成功率达到100%，九成任务超过90%。

这意味着它体现出的并不是单项任务的“偶然强”，而是一种更接近通用机器人大脑的能力特征：动作层面的连续与一致、复杂环境中的稳定执行、跨任务跨场景的泛化能力、在随机扰动下依然能复现结果。

这两个榜单之所以关键，是因为它们测量的是两种长期被割裂的核心能力。过去几年，这两个方向各自都有不少团队在探索，但大多是割裂的：有的更擅长看懂世界，却不知道该怎么动；有的能执行固定动作，却对环境变化缺乏预判。Motubrain能够同时在两类benchmark上问鼎，至少在benchmark层面验证了一件事：把预测世界和驱动行动统一在同一个模型里，这条路是走得通的。

平心而论，在“微调、打榜、定制模型”之下，benchmark毕竟是“榜单”，并不完全等价于真实世界中的长期稳定能力。生数科技显然深知此意，除了模型本身的技术突破，最近其产业动作也值得关注，生数科技已先后与无界动力、深朴智能、星尘智能等具身智能企业达成战略合作。

这些合作的意义在于，它们让Motubrain不只停留在“技术验证”层面，而是进一步形成了“模型能力—本体适配—场景落地”的完整叙事。

机器人大脑的分水岭时刻

回到行业更大的图景。

机器人硬件的快速迭代和市场对具身智能的高度关注，正在创造一个前所未有的窗口期。但这个窗口期的真正赢家，可能不是某一家机器人本体厂商，而是那个能够定义“下一代机器人大脑”的模型厂商。

原因很简单，如果通用机器人大脑真的成立，那么它将成为整个行业的核心基础设施。所有的机器人本体，不同构型、不同品牌的机器人都将运行在这颗大脑之上。这颗大脑所代表的，是比任何单一硬件形态都更底层、更本质的竞争力。

从Motus的开源验证，到Motubrain的产品化落地，再到双榜第一的技术实证，生数科技正在这条路径上持续前进。他们的世界行动模型路线，至少已经在一个关键问题上给出了答案：预测世界的能力和驱动行动的能力，可以在同一个模型中共存，并且相互增强。

至于这颗“通用大脑”能否在更开放、更复杂、更不可预测的真实世界中同样成立，那是整个行业接下来需要共同回答的问题。而这个问题的答案，将决定具身智能下一个十年的走向。

—END—

活动广告

以上为广告

往期推荐:

毛利率承压，禾川科技2025年亏损1.30亿元

零部件上市公司2025年机器人业务大增74.57%

当人形机器人加入一站式注塑方案，领先在哪？

7000kg最大负载+SLAM自然导航，航空货运枢纽专用机器人来了

点击「阅读原文」

进一步了解「世界行动模型 Motubrain」

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。