看完智平方创始人郭彦东的这场演讲，我对 VLA 又有信心了

发布时间：2026-05-07来源：AI科技评论

VLA没有终结，反而在持续变强。

作者丨高景辉

编辑丨马晓宁

2026 年的具身智能赛道，正陷入一场关于技术路线的激烈争论。

先是宇树科技创始人王兴兴公开表示，世界模型是更有希望的技术路线；再是英伟达在 GTC 大会上发布 GR00T N1，将世界模型作为通用人形机器人基础模型的核心架构。一时间，世界模型成为行业最热的关键词。

与之相对的，是 “VLA 时代已经终结” 的论调在行业内快速扩散。大量从业者开始质疑，曾经被视为具身智能核心范式的 VLA模型，是否已经被新的技术浪潮抛下。

VLA 的时代真的过去了吗？在 2026 年 4 月的 FAIR plus 大会主论坛上，智平方创始人郭彦东用一场演讲直接回应了这场争论，他的判断很明确：VLA的时代远未终结，世界模型正在汇入 VLA 的河流，其中下一个关键变量则是类脑架构。

随着逐渐理解这一判断背后的内在逻辑，我对 VLA 路线的信心又一点一点地重建了起来。

世界模型，终结不了 VLA

要判断一个技术范式是否过时，首先需要回到第一性原理：它解决的核心问题是什么？这些问题的解决方式是否已被根本性地颠覆？

VLA 即 Vision-Language-Action，视觉、语言、动作三个词定义了一个完整的闭环：机器人通过视觉感知环境，通过语言理解指令并进行推理，通过动作输出完成物理交互。从感知到理解到执行，这是一条不可拆解的链条。

郭彦东也在演讲中强调：“不管是Vision、Language、Action怎么组织，它的组织方式会有变化，但是需要三个核心的要素，这个范式是永远不会有变化的。”

这个判断有充分的技术逻辑支撑。具身智能完成一项任务，必须先知道环境里有什么（视觉感知），理解任务是什么（语言推理），再调动身体去执行（动作控制），这三个环节缺一不可。

你可以优化感知模块的分辨率，可以提升语言模型的推理能力，可以改进动作控制的精度——这些都属于“怎么组织”的问题。但你不能去掉感知模块，让机器人在黑暗中摸索；不能去掉推理模块，让机器人机械地重复固定程序；更不能去掉动作模块，因为不与物理世界交互，就不存在具身智能。

当前所谓“VLA时代终结”的论调，混淆了两个层面的问题：一是 VLA 作为一个技术范式的存续，二是具体架构形式的迭代。前者关乎具身智能的本质需求，后者只是实现路径的选择问题。

Gartner技术成熟度曲线告诉我们，一项技术从过高期望的峰值滑落后，往往被舆论判定为“失败”，但这个阶段恰恰是技术与实际场景深度磨合的关键期，真正的生产力突破往往在此发生。

VLA 便处于这一阶段，其当前面临的争议，更像是在从实验室原型迈向工业级落地的过程中，技术边界被清晰认知后的必要调整。

实际上，VLA 从来不是一个固化的技术方案。它从诞生之初就在不断吸纳新的方法论。从最早的对齐式VLA，到快慢学习VLA，再到当前将世界模型融入 VLA 的探索，技术架构一直在演进。把 VLA 等同于某一个历史版本的实现方式，是对这个范式的误读。

那么，世界模型在这场演进中扮演什么角色？

郭彦东在演讲中做了一个关键区分：“把世界模型用来增强 VLA，和把世界模型融入 VLA，是不同的两个范式。我们认为把世界模型融入到VLA里面，让 VLA 具备更强的泛化能力，是VLA变得更强的必由之路。”

这个区分的实质在于：世界模型是作为一种外部工具来辅助 VLA，还是成为 VLA 架构内部的一个有机组成部分？前者是松耦合，可以随时替换；后者是紧耦合，改变了 VLA 的感知与推理方式。

世界模型的核心价值在于让机器人生成对物理世界的预测能力。传统 VLA 的瓶颈之一是：模型虽然能理解“把杯子放到桌子上”这条指令，但对“杯子被碰倒后会滚动”“松手后物体会下落”这类物理常识缺乏内在判断。当环境出现预期之外的变化时，模型容易做出错误动作。

融入世界模型后，VLA 可以内生地形成对物理规律的理解。它不再被动地映射“感知→动作”的对应关系，而是能够预测动作的后果，在行动之前进行模拟推演。这补齐了传统 VLA 在物理预测和泛化适配上的短板。

这块短板恰恰是制约VLA从实验室走向真实场景的关键障碍。真实物理世界充满不确定性——光照变化、物体位置偏移、外力干扰——模型如果只靠大量标注数据来覆盖所有情况，泛化天花板很快就会触达。世界模型提供了另一种路径：让模型理解底层物理规律，从而在未见过的场景中也能做出合理动作。

从这个角度看，世界模型是VLA架构的重要升级模块，而非独立于 VLA 之外的新赛道。所谓“世界模型取代VLA”的说法，在技术逻辑上说不通——世界模型解决的是预测和泛化问题，它本身并不直接输出动作，也不直接处理视觉输入，它需要嵌入到端到端的感知-推理-执行闭环中才能发挥作用。

总而言之，每一代迭代，VLA都在解决上一代在真实物理世界中暴露的核心痛点：泛化能力不足、动作稳定性差、时空感知鲁棒性弱。它从来不是一个固化的技术方案，而是一个持续吸收新技术、不断进化的开放范式。

能为 VLA 代言的，为什么是智平方？

捋清 VLA 与世界模型的关系是一回事，拿出有说服力的技术成果又是另一回事。智平方之所以能在争论中为 VLA 发声，离不开长期的技术积累和独特的架构创新。

时间线拉回到2023年。彼时具身智能的概念刚刚升温，多数团队还处于观望或单点技术探索阶段，而智平方刚成立就明确了方向：物理世界大模型。同年，他们发布了中国创业公司中的首个端到端 VLA 具身大模型。

一步卡位，决定了此后的技术惯性。与那些从计算机视觉或自然语言处理转投具身智能的团队不同，智平方从第一天就将机器人动作控制作为模型输出的核心环节来设计，而非事后嫁接。这种底层的差异，使得他们在后续技术迭代中更容易突破感知与控制之间的隔阂。

不过，先发优势本身不足以构成护城河，智平方真正的技术壁垒来自对 VLA 架构底层逻辑的重新理解，典型的例子就是2025年6月推出的快慢学习VLA架构（FiS-VLA）。

虽然此前也有人将“双系统”设计引入VLA大模型，但由于两个系统相互独立，使得快系统无法充分利用慢系统的丰富预训练知识，导致执行能力大打折扣。

而智平方首创的快慢学习 VLA 架构，将动作模型从语言模型中分离出来，形成“慢系统”和“快系统”的双轨制，其中慢系统负责情境理解与任务规划，快系统负责运动执行与实时反馈。这套架构为后续的技术迭代奠定了底层逻辑。

有了架构基础，下一个问题是：快系统能快到什么程度？放在实战中效果究竟怎么样？

智平方携手港科大最新发布的NeuroVLA给出了答案。这套全球首个类脑架构的VLA大模型，将仿生分层设计推到了新的技术高度。

传统 VLA 的设计思路，是让一个统一的大模型同时处理感知、推理和控制。这种集中式架构的问题在于：高层级的语义理解和低层级的运动控制被混在一起处理。结果是两头不讨好，运动控制延迟高、抖动大，而推理过程又被高频控制任务抢占计算资源。

在此背景下，智平方创造性地提出将“小脑”和“脊柱”模块融入机器人操作环节。这个思路的独到之处在于，它改变了具身智能领域长期以来的一个默认设定：小脑和躯干只负责运动，而操作任务由大脑统一指挥。

正如郭彦东在演讲中所言：“我们也在行业当中最早提出了要把小脑和脊柱的部分也融入操作当中，这样对于整个操作来讲，它可以有毫秒级安全的自适应，这个是机器人进入到真实环境最核心的要素。”

做出这一判断的背后，是对生物智能的深入理解。人类在执行精细操作时，大脑皮层只负责发出高层指令——“拧开那个瓶盖”，而手指如何协调、力度如何调整、遇到意外阻力如何应对，这些都由小脑和脊髓层面的神经回路自动完成。这套分层架构是亿万年进化的产物，它的核心优势在于：将高频、低延迟的反馈控制下沉到低层级处理，解放高层级进行复杂的语义推理。

具体来说，NeuroVLA 将机器人的计算架构明确分为三层。最上层是运行在GPU上的“大脑”层（皮质模块），专注于理解视觉和语言指令，生成抽象的任务目标。中间是“小脑”层（小脑模块），作为一个自适应滤波器，以每秒数百次的频率读取机器人本体的关节、力度等传感器数据，实时平滑大脑发出的指令，消除抖动，并根据外力干扰即时调整运动轨迹。最底层是“脊髓”层（脉冲脊髓模块），部署在专用的神经形态芯片上，以脉冲神经网络的方式驱动电机。

这套架构的技术突破集中在底层。脉冲神经网络的核心特点是事件驱动，即只有需要动作时神经元才“放电”，静止时几乎不耗能。这与传统人工神经网络需要持续进行矩阵运算的模式形成了根本性差异。根据智平方公布的数据，NeuroVLA 在实体机器人执行任务时，“脊髓”层平均功耗仅为0.4W。

0.4W是什么概念？一部手机进行视频播放时功耗都要达到1-3W，NeuroVLA 能耗之低可见一斑。对于依赖电池供电的移动机器人而言，这种能效比是决定能否实现全天候自主作业的关键指标。

此外，NeuroVLA 在“脊髓”层内置了快速安全反射通路，一旦检测到突然的碰撞力，可在20毫秒内直接触发撤退动作，完全绕过较慢的大脑回路。传统 VLA 系统的反应延迟通常在200毫秒以上，这10倍的差距，在真实人机协作场景中意义重大，毕竟20毫秒足够让机器人在碰触到人手的瞬间收回机械臂，避免造成伤害。

实验数据证明了这套架构的实战效果。在碰撞干扰测试中，NeuroVLA 的传统对照模型在遭遇外力碰撞后全部任务失败，成功率为0%。而 NeuroVLA 不仅能在20毫秒内触发保护性撤回，还能在之后自主调整路径绕开障碍，任务恢复成功率达到54.8%。机械臂的动作抖动被抑制了75%以上。这些数据指向一个实质性的突破：机器人首次表现出了类似生物“本能反应”的生存能力。

无论是从快慢学习 VLA 到 NeuroVLA 的技术迭代脉络，还是可以量化验证的性能指标，都给了智平方敢于在争议声中为 VLA 代言的技术底气。

比起路线之争，

更重要的是让模型被用起来

路线争论天然具有传播属性，毕竟“制造对立”本就是传播学上的流量密码；技术路线的标签，也是各大公司在资本市场上博弈的重要筹码。

但回到具身智能落地的现实，一个更紧迫的问题被忽视了：当前行业内能够真正将VLA模型部署到真实机器人上、完成实用任务的团队，依然集中在少数几家公司手中。

这无关路线选择，本质上是一个工程化门槛问题。

高端VLA模型的训练需要大规模、高质量的具身数据，需要从感知到控制的完整工具链，需要在真实环境中反复调试的工程能力。对于多数希望引入具身智能技术的企业和开发者而言，从零搭建这套能力体系的成本高到不切实际。模型的开源与复用、场景适配的便捷性、评测标准的统一性……这些决定着技术能否走出实验室的关键环节，长期处于缺位状态。

恰好郭彦东在演讲中介绍了一个一站式、开箱即用的具身智能模型开源社区「AlphaBrain Platform」。从其定位来看，这个开源平台试图解决的核心问题是，让VLA模型不再是少数团队的专属能力。

进入开源社区主页可以看到，AlphaBrain Platform 整合了三类能力。第一是模型汇聚。平台收录了智平方自2023年以来研发的系列大模型，包括最新发布的类脑VLA大模型，同时也在MIT许可证允许的前提下，将行业内表现优异的模型通过数据适配纳入平台。目标是将多方模型聚合到一个统一的生态中。

第二是标准化测评。不同模型在不同环境、不同任务上的表现，缺乏公开透明的对比基准，这导致开发者选型困难。AlphaBrain Platform 提供了测试平台和测试环境，可以一键式调用模型，查看其在特定测评体系下的真实表现。

第三是场景化训练工具。通用模型要适配具体场景，需要专业知识和反复调试。平台提供了一套面向场景的RL TOKEN训练框架，让开发者能够以较低门槛让通用模型学习特定任务的专业技能。

从商业逻辑来看，这是一次降低行业准入门槛的尝试。模型、测评、训练的三合一平台，如果运转顺畅，确实可以将原本需要顶尖团队才能驾驭的复杂系统能力，转化为更广泛的开发者群体可以获取的公共技术资源。

这也回到了郭彦东在演讲末尾的一句话：“通过这样一个全家桶式的贴心服务，希望能够把本来可能是属于少数团队的一个复杂系统能力，转化为整个行业都能够共享的公共能力。”

从 VLA 路线之争到开源平台建设，智平方在做的事实际上是同一件事：证明 VLA 不仅是一个有生命力的技术范式，更是一个可以被工程化、可以被广泛获取的基础能力。

与之相比，孰优孰劣的路线之争显得无足轻重。

结语

回到行业最初的那个问题，VLA 的时代过去了吗？答案显然是否定的。

VLA 始终是通往物理世界智能的最强主航道。它的核心生命力，在于它是一个持续吸纳前沿技术、不断迭代升级的开放范式，而非一套固步自封的固定架构。从世界模型的融入，到类脑智能的加持，VLA 正在不断吸收行业内的前沿技术成果，持续突破自身的能力边界。

智平方的技术路径，恰恰印证了这一点。从国内首个端到端 VLA 模型的发布，到世界模型的深度融合，再到类脑 VLA 架构的创新，智平方始终沿着 VLA 的技术主线持续深耕，同时不断将前沿技术融入其中，实现了模型能力的持续跃升。而开源生态的搭建，更是让 VLA 技术走出了少数团队的实验室，成为全行业可以共享、可以落地的公共技术能力。

随着 VLA 架构的持续创新，以及开源生态的不断完善，具身智能技术将逐步突破实验室的边界，进入更多真实的生产生活场景。通用智能机器人，也将逐步完成从演示 demo 到规模化实用产品的跨越，成为继 PC、手机、智能汽车之后，改变人类生产生活方式的第四代智能终端。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。F

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。