Z Potentials|对话黄岩:拒绝“压扁”物理世界:一个少数派对具身智能的第一性原理对赌


在当下这个被算力与数据神话包裹的具身智能浪潮中,黄岩是一个极其锋利的少数派。而这种稀缺性,在具身智能的工业化进程中,正逐渐沉淀为难以复制的先发优势。
他并不符合那种典型的、踩在风口上的行业英雄画像。他讲技术时极快,给判断时却极慢。在对话中,他近乎偏执地回避着那些被嚼烂的流行词,从未急着将自己塞进“人形机器人” “Physical AI”或“世界模型”这类拥挤且安全的叙事里。当行业主流仍在争夺PPT上的赛道叙事,他已经在真实产线上积累起可验证的技术实绩——这种落差,正是判断一个团队真实成色最直接的坐标。
相反,他更倾向于做那个捅破窗户纸的人。
2013 年,多模态尚未成为显学,大多数视觉研究者正沉溺于在已知框架内刷榜,他却感到了某种“确定性的枯燥”。在他看来,那是在存量逻辑里打转。他转身扎进视觉与语言的交叉地带,不是因为那是捷径,而是因为那里的交互可能性更接近智能的本质起点。这种判断力,在此后十二年间被反复印证——每一次他提前布局的方向,都在数年后成为整个行业追赶的赛道。
这种审慎构成了他的底色:剥离行业惯性,锚定那些被主流范式集体忽视、却恰恰决定系统成败的底层变量——而这,正是构建真正技术壁垒的起点。
01 具身智能的「1.0荒野」
当具身智能被推上神坛,行业内最流行的叙事是「寻找机器人的 GPT 时刻」。
但黄岩对这种类比保持着一种罕见的、近乎冷感的克制。在他看来,若以大语言模型的坐标系为参照,今天的具身智能远未抵达 GPT-3.5 的前夜。它正处于 1.0 时代的荒蛮期。
这种判断源于他对当下主流路径中「低效」的审视。目前行业的演进逻辑可以高度概括为:先解决数据饥渴,再奢谈泛化能力。
在这个逻辑下,所有人都在各显神通:有人在优化采集接口,试图让分布式示教变得廉价;有人寄希望于互联网视频,试图将人类的视觉经验强行“灌”给机器人。黄岩并不否认海量数据是绕不过去的入场券,但他更关心的是:在数据远未丰盈、工业现场又无法像互联网那样产生无穷样本的“真空期”,模型能否在结构上先变得聪明一点?
他用了一个极具画面感的词,来形容目前的架构损耗:漏斗。
在物理世界中,具身智能的输入是带有三维信息的视觉信号,输出是机械臂在三维空间中的行为轨迹,这本应是一个天然具备空间对称性的闭环。然而,多数模型在处理中间层时,习惯于将这些高维信息粗暴地压缩成一维向量或抽象语义。
结果是,最关键的“空间关系”在信息的层层过滤中,流失了。
这种结构性的失血,让模型陷入了一种低效率的「硬学」状态。它并非真正理解了物理世界,而是在海量样本的饱和攻击下,死记硬背住了各种可能的切片。这意味着:现有主流路线的数据采集成本,不只是一个技术问题,而是规模化落地的天然天花板——谁解决了"漏斗",谁就同时解决了工业化的经济性。
“如果机器人要抓一个瓶子,传统模型更容易记住‘这是农夫山泉,瓶盖是红的’,”黄岩举例道,“但对执行动作真正关键的,是瓶子的绝对位置、体积以及机械臂接近的几何角度。这些空间几何关系,才是行为生成的本质依赖。”
在黄岩的视角里,今天许多具身模型的问题不在于不会学,而在于由于架构逻辑先行丢弃了核心信息,才不得不依赖规模效应去搞「暴力补救」。
他试图挑战那个被行业默许已久的技术前提。机器是否必须先把三维世界“压扁”,才能理解世界?
如果答案是否定的,那么具身智能通往现实世界的路径,或许并不只有“堆数据”这一条窄路。
02 BridgeVLA ,首个超少样本大模型
如果说早期的思考是在重新定义问题,那么 BridgeVLA 则是黄岩将逻辑落地的第一次完整闭环。这也是最值得深入拆解的一环:它所验证的,是一条绕开"数据军备竞赛"、直指落地可行性的差异化路径。
它的意义不只是提供了一个新模型,而是验证了一个长期被忽视的路径:如果能保住空间结构,让模型始终“贴着”物理世界的形状去决策,样本效率就会发生质变。
这堪称一次带有极客美学的底层重构。在学术界普遍迷信“暴力拟合”的当下,黄岩一针见血地指出了主流架构的软肋——为了追求算法的普适性,现有的视觉-语言-动作(VLA)模型往往在预处理阶段,就过早地将三维空间压缩成了一维向量。
这种“降维打击”不仅弄丢了距离感,也弄丢了物理世界的逻辑。
BridgeVLA 选择反其道而行。黄岩揭示了其中的核心原理:通过将模型中间层从一维特征“拉高”回三维热力图,空间建模能力得以在模型中无损流动。 这种设计,让机器人从“死记硬背动作”变成了“真正理解空间”。
公开论文显示,BridgeVLA 在 RLBench 等基准测试中平均领先基线 32%;更具标志性的信号是,在 10 多个复杂任务中,它仅凭每个任务 3 条轨迹,就实现了 96.8% 的成功率。

这组数字背后的潜台词足以令行业警醒:具身智能未必只能靠重数据、重示教、重试错去硬推。结构优化本身,就具备直接改写样本鸿沟的能力。落到产业现实:客户部署成本可压缩至传统方案的百分之一,交付周期从数月缩短至数天。这不只是学术指标的刷新,而是具身智能真正走进工厂的可行性前提。
03 BridgeV2W 与具身因果律的闭环
在迈向工厂车间的进程中,理解空间仅是第一步。如何建立对物理因果的预判,正成为新的技术焦点,也引发了行业对“世界模型”这一核心概念的重新审视。
目前,主流叙事倾向于将世界模型视为一种“超级模拟器”——利用生成式技术制造海量合成视频,以此缓解数据饥渴。但在精密的工业场景中,这套模式正撞上南墙:合成视频中细微的视觉抖动或物理失真,在毫秒级的机械交互面前,往往会沦为致命的“噪声”。
对此,黄岩对世界模型进行了“去泡沫化”处理。
与其虚耗算力生成似是而非的训练素材,不如将重心转向对未来的因果推演。 如果说此前的 BridgeVLA 解决了机器人“如何在少样本下学会操作”,那么 BridgeV2W 则在探讨一个更高阶的命题:机器人在执行动作前,能否先预演后果?
在真实的工业现场,任务失败往往并非源于动作缺失,而是由于无法感知“代价”:
力度过载: 一个精准的抓取动作,可能导致零件结构性损坏;
物理干涉: 动作幅度过大,导致机械臂与周边设备发生昂贵的碰撞;
累积偏差: 当前路径看似成立,却为下一步姿态埋下了不可逆的隐患。
为了对齐坐标空间的动作与像素空间的视频,并解决模型对相机视角过于敏感的底层痼疾,BridgeV2W 引入了 Embodiment Mask(具身掩码) 机制。
这套技术通过 URDF 模型和相机参数,将抽象的坐标指令实时渲染为像素层面的“动作剪影”,并以类似 ControlNet 的方式注入视频生成模型。配合基于流的运动损失(Flow-based Motion Loss),模型能够自动忽略无关的静态背景,精准锚定动态区域。

BridgeV2W具身世界模型架构
这种设计,让预训练视频模型真正“理解”了动作意图与物理反馈之间的强耦合。
在 BridgeV2W 的架构下,世界模型不再是一条制造幻觉的视频生产线,而是一套冷静的风险截流系统。当执行器给出动作轨迹时,系统会在虚拟场景中先行模拟物理逻辑。一旦推演结果指向碰撞或违规,指令将被提前截断。这意味着机器人进入产线,不再是一场赌注,而是可量化、可管控的风险部署——正是这种确定性,让工业客户从"感兴趣"变成"敢买单"。
在黄岩的逻辑里,智能不应只是无止境的生成,更应是带有预判的克制。
04 将慢思考引入机器人推理
在 BridgeVLA 解决了样本效率、BridgeV2W 实现了未来预演之后,具身智能的技术路线正迎来第三次关键升维。这一阶段的核心命题更具挑战性:当环境复杂度与任务长度剧增时,机器人能否在落手之前,进行更深度的逻辑博弈?
这一技术方向被定义为E-TTS(Embodied Test-Time Scaling,具身测试时扩展)。
E-TTS 的核心逻辑,是将大语言模型领域已验证的“推理扩展定律(Scaling Law at Inference Time)”引入具身领域。它试图打破机器人长期以来作为“高频反应器”的局限,使其具备类似人类的“系统 2”思维——在面对复杂变量时,能够慢下来,展开长链条的逻辑拆解。
在传统的视觉-语言-动作(VLA)架构中,强化学习的重心往往全放在动作空间的优化上,而忽略了“思考过程”本身的质量。这导致机器人更像是一个反射神经极其发达、但缺乏策略头脑的运动员。
E-TTS 的本质,是在推理侧投入更多的计算资源,以换取更高的决策质量。
这与大模型领域(如 OpenAI o1 系列)展现出的趋势高度契合:模型的能力上限,不再仅仅取决于预训练阶段“灌”进去多少数据,更取决于在推理的一瞬间,它能调动多少算力去反复自我博弈与修正。
在工业场景中,让机器人“多想一步”绝非锦上添花,而是进场的刚需。
不同于容错率极高的数字世界,物理世界的错误成本极其昂贵。在一条价值数千万的自动化流水线上,一次由于推理不足导致的误操作,不只是一个报错弹窗,而是真实的设备损毁、零件报废,甚至是整个生产环节的停摆。对于工业级智能而言,“快”是其次,“不犯错”才是最高的溢价。这也意味着:谁能率先把"零失误"做成可交付的产品承诺,谁就率先在工业具身智能赛道上站上定价的制高点。
通过 E-TTS 的引入,黄岩的技术版图完成了一次从执行到决策的闭环重构:
BridgeVLA: 解决样本效率(学会如何干活);
BridgeV2W: 实现未来预演(提前预判风险);
E-TTS: 解决复杂长路径下的决策稳定性(建立思考策略)。
这种层层递进的逻辑,试图将感知、预演与深度推理串联成一套完整的工业级闭环。

在黄岩看来,过去行业对机器人的期待往往停留在“手脚利索”,但真正能跨过工业高门槛的关键,或许在于那颗具备“慢思考”能力、学会在复杂世界中深思熟虑的大脑。
05 在工业理性中沉淀具身方法论
回头看黄岩这十多年的研究,你会发现一个很有意思的事实:
他的工作表面上跨了很多领域——图文匹配、视频行为理解、强化学习、视觉语言导航、机器人操作、世界模型等。
但在更深层,它们都在服务同一件事:把高层语义理解,变成一种可执行、可泛化、可验证、可持续优化的行动能力。
在通用机器人叙事漫天飞舞的当下,黄岩表现得更像是一个“锋利的少数派”。他没有选择通过宏大的愿景去制造行业兴奋点,而是选择了一条反潮流、且极其“冷感”的路径。
这或许才是具身智能真正成熟的方向。在算力竞赛与暴力拟合的洪流中,这种对逻辑和因果的执着,让黄岩成为了那个修剪未来的人。在具身智能的诸多叙事中,真正稀缺的从来不是宏大愿景,而是这种对工业现实的清醒与对底层逻辑的执着——这,或许才是穿越行业泡沫、最终沉淀下来的真实价值。
以下是Z Potentials和黄岩的对话实录,经编辑修改,enjoy~

A. 技术起点:为什么是多模态
ZP:那我们直接进入正题。我们看到您其实 2013 年就开始做多模态研究了,那个时候多模态 AI 几乎没有人关注。是什么让你在那个时间点选择了这个方向?
黄岩:我们组本身是做视觉的,当时的研究态势是纯粹做自然语言理解更火一些。但我认为技术要以落地为前提,研究单模态发展空间比较窄,多模态的想象空间更大,是未来必然发展趋势。
ZP:当时主流的 CV 还在做单模态的分类和检测,你要做的是让 AI 同时理解图片和文字这种多模态方向,选择面其实很窄。周围人是怎么看待这个方向的?
黄岩:周围人当时觉得这确实不是主流方向。研究的人不是特别多,相应的数据集和 Benchmark 也不太完善,大家更多还是关注视觉本身。
ZP:你在博士期间接触了认知心理学和 AI 的交叉研究。这段经历对你的判断有什么影响?
黄岩:早期大家一直在说 AI 模型缺乏理论基础,无论数学、物理还是其他方面,特别是优化问题都没有理论基础。但我们团队当时加入了中科院的脑科学与智能技术卓越创新中心,会涉及到认知神经科学方面的研究。我觉得认知神经科学的研究成果其实跟 AI 很相似——毕竟"神经网络"这个名字本身就来源于人脑的神经元。所以我一直把脑与认知的相关成果作为 AI 模型设计的理论基础来持续学习和研究。
ZP:您可以展开讲一下。当时您入行时做的多模态研究,跟我们现在普遍理解的多模态肯定有所不同——现在大家理解的多模态都是基于这波大模型兴起的,中间经历了哪些变化?
黄岩:这其实是两个问题,我一个一个说。
关于脑科学和认知这块:本质上来讲,我们关注的所有深度学习模型或者人工智能模型,它最基础的就是一个"神经元相互连接"的架构。但在人脑中,这只是非常基础的框架。从认知神经科学的角度来讲,人脑在这个框架之上还有非常多高阶的认知机制——注意、记忆、学习、推理、决策,实现信息的选择性过滤、知识的存储复用、动态推理等等。正是这些能力,让人类能够做非常复杂的推理、应对非常复杂的任务,实现一个高鲁棒性、高稳定性的认知系统。
我的主要思路是借鉴认知心理学中的注意机制、记忆机制等一系列认知机制的研究成果,用来指导设计新的人工智能模型架构。我们一直是这么做的。从整个人工智能发展的大趋势来看,现在大模型的核心架构包括自注意力机制(Self-Attention),其实也是在慢慢把注意力机制引入到大模型的架构设计中。
关于多模态的演进:最早期大家关注的多模态包括多模态搜索、多模态文字生成、多模态融合等等,但我们都是把每个任务单独来做——比如做搜索就一直关注搜索,搜索有相应的 Benchmark、数据集和方法。这个过程一直发展到 2019 年左右。从我的角度来讲,我在 2019 年开始觉得大模型的出现,特别是大规模预训练模型,能够把这么多任务统一在一个模型中去处理,而且数据量越大、模型越大,泛化性反而越好,甚至比你单独处理各任务的效果还好。
因此我当时判断,多模态领域的创新主体可能要从学术界迁移到工业界,因为工业界有更多的数据和算力。这也是促使我在 2019 年从纯粹的视觉语言多模态研究转向视觉语言导航的原因——把以前积累的视觉语言多模态能力迁移到机器人这样一个更具挑战性的场景上去。
ZP:您之前提过"认知驱动的 AI 是下一个突破口",能解释一下什么叫认知驱动的 AI 吗?现在回头看,这个判断验证了多少?
黄岩:认知驱动的 AI 是我们比较早提出来的概念,大概在 2014—2015 年就有了这个判断。当时的定义是:在传统的深度神经网络、卷积神经网络等基础架构之上,把认知机制的建模融入进去,使这些架构不仅会做简单的识别,还具有一定的认知能力——或者说我们想把人类的认知机制全部进行迁移,来实现比较强的认知水平。
从验证来看,大模型里面有一个核心的机制是自注意力机制。2017 年之前大家很少考虑把注意力机制加进来,但现在大模型配备自注意力机制已经成为主流。从架构演变的角度来讲,其实也是在慢慢地加入更多的认知机制。
ZP:您 2016 年就把注意力机制引入了多模态领域,而 Transformer 那篇论文是 2017 年才发的。您当时是怎么比别人先一步想到用注意力机制的?
黄岩:如果追溯的话,Geoffrey Hinton 在 2011 年就已经有最早的论文开始讨论类似的东西,当然建模方式跟现在不太一样。所以我们一直在关注这个方向。特别是我最早做的是图文搜索任务,2015—2016 年就想把注意力机制引入到多模态领域。契机是 2014—2015 年左右,注意力机制在一个单模态任务——神经机器翻译——上取得了非常不错的效果,我注意到了这个情况,就很快想着把它迁移到多模态任务上去。算是比较早地把注意力机制引入到图文搜索领域。
ZP:这种比行业早一步的节奏,是你自然而然在研究中走出来的,还是研究所有这样一个氛围?
黄岩:有这样一个氛围。我们加入了中科院的一个交叉学科虚拟组织,里面有学计算机的、学工科的,还有学神经科学的。我们在这个组织里会有日常的交流。另外在 2014 年的时候,我们就想做认知启发的新型网络架构设计,也争取到了国家层面和北京市层面的项目经费支持。这其实是我们一直在做的主线任务。
除了注意力机制,我们在记忆机制、推理机制、决策方面也做了很多研究,特别是在 2014 到 2019 年间,基于上一代的人工智能模型做了非常多成果。后来结合大模型也做了很多尝试,这些认知机制、认知能力同样可以增强大模型在复杂任务、复杂场景下的性能。相关成果在 2024 年获得了北京市自然科学一等奖,总结了前面大概八九年的成果。另外我们提出了一个叫做"深度认知神经网络"的理论框架,2023 年以学术专著形式出版,把人工智能模型研究和认知心理学研究两个交叉学科关联起来。
ZP:您现在掌握超少样本大模型、世界模型和人在环路强化学习三项技术,它们是同时学的还是有先后顺序?
黄岩:它们确实不是同一时间积累起来的,更多是在前十几年的研究过程中逐步形成的。
少样本方面,我基本上在 2018—2019 年就开始在多模态场景下做少样本学习。当时多模态的数据没有那么多,基于少样本结合预训练大模型可以取得非常好的效果,说白了是提升了模型的数据利用效率。
世界模型方面算是比较新的积累。我们大概在 2024 年,把世界模型的"预测未来"的能力结合具身大模型,用来增强当前决策的精度,做了非常成功的尝试。2025 年底又提出了自己的具身世界模型,单独拉出来做得更完备,面向实体部署,效果比现有的如英伟达(NVIDIA)等领先的具身世界模型都有显著优势。
强化学习方面,更多是在 2018—2019 年。特别是 2019 年,我们在视觉语言的"语言驱动视频行为定位"任务上提出了自己的语义强化学习,取得了当时的最好成绩。相关工作拿到了 CVPR 的 Oral 论文。后来团队也一直在做面向多模态大模型的强化学习,包括人类反馈的强化学习(RLHF),也提出了一些比较知名的 Benchmark 和算法。
2025 年开始,我们观测到强化学习对具身领域的价值——如果有一个比较强的具身大模型并拿到不错的泛化性结果,在特定场景部署时,强化学习有潜力用较少的时间和样本快速拟合,达到明显的性能提升。
ZP:怎么理解这三项技术的关系?为什么要选择这几个方向?
黄岩:我们所有模型设计的出发点都是围绕实际应用场景的需求。
少样本解决的是第一个问题:现有的具身大模型对有标注训练数据的需求量很高,在实际工业场景下很难使用。所以我们要用少量样本就能让模型学会操作。这是我们的核心,也是面向工业场景特殊定制的具身模型底座,大概能实现 90% 左右的基础精度。
世界模型我们不是用来生成训练数据的,而是用于安全校验。工业场景下,VLA 或具身模型产生的行为有时不够安全——虽然可能成功,但操作过程中可能碰到周边物体,或者路径规划不合规。世界模型可以结合 VLA 模型产出的轨迹序列,对未来的状态进行推演预测。通过看推演结果,就知道当前轨迹是否安全,不安全的话可以提前停掉。
强化学习解决的是最后一步:有了具身基础模型加上世界模型,精度已经比较高了,但工厂有时要求"三个 9"甚至"四个 9"的高精度,中间还有差距。这最后一步可以用强化学习来弥补——通过人在环路的反馈,在几个小时甚至更短时间内让模型适配到特定场景,最终达到接近 100% 的精度。
从技术角度来讲,这三者其实形成一个闭环——一个"三角关系"。VLA 模型产出的行为可以送入世界模型做校验;校验通过就执行,不通过就反馈给模型调整。世界模型既然能判断行为好不好,就可以作为强化学习的 Reward Model 来评分。强化学习又能基于打分结果进一步提升具身大模型。同时,强化学习操作过程中产生的视觉语言、行为及打分数据,都可以存储下来用于模型训练。整个三者形成一个环路。
ZP:您强调应用场景驱动,这跟其他很多学者先刷榜、再找场景的思路很不一样。怎么思考这个差异?
黄岩:少样本确实是我们比较独特的差异化技术,我们始终从应用需求出发去寻找技术来解决问题。
举个例子:世界模型方面,可能其他家更多考虑的是用来生成数据、合成数据。但如果你想生成用于具身模型训练的数据,质量一定要非常高——比如机械臂在和物体动态交互的过程中,画面一定要清晰、边界感要明确,不能出现模糊。因为我们关注的是精确的行为生成,如果产生视觉层面的低质量数据拿来训练,对模型来讲就是噪声和干扰。我们也和做视频生成的前沿学者讨论过,从目前的技术水平来讲,生成用于具身模型训练的高质量数据对于整个视频生成领域都是挑战性难题。
所以我们没有从这个角度去用世界模型,而是用它来大概推演未来的状态——比如感知到可能会碰到周边物体,不需要特别精细,但能提前防范危险,做安全校验就够了。从这个角度来讲,世界模型的能力是足够的。
B. 技术深潜①:从 VLN 到真机部署
ZP:能简单介绍一下 VLN(Vision-Language Navigation,视觉语言导航)到底是什么?
黄岩:VLN 是 2018 年才出现的任务,到目前还不到十年,但它提出得比"具身智能"这个概念还要早——具身智能真正火起来算是 2022—2023 年开始的,而 VLN 在 2018 年就有了,我本人 2019 年就开始切入。
它和传统的基于高精度建图的 SLAM 导航不一样。VLN 的核心诉求是:不需要提前建立高精度地图、不用在地图上标注位置信息,只依赖机器人的视觉观测,结合用户下达的语言指令,就可以通过一个 VLN 模型产生行为——比如往前走 0.2 米、停止、往后退 0.2 米、往左拐 15 度等二维平面上的行为。结合视觉语言作为输入,模型预测出行为,告诉机器人该怎么走来完成任务。
ZP:这个领域为什么开始火起来了?主要的技术难题是什么?
黄岩:火起来的原因,我认为是把视觉语言的能力迁移到一个看得见摸得着的机器人实体上。现在大部分视觉语言模型还都是虚拟的,没有真正的实体,无法和真实物理环境交互。而 VLN 让以前做视觉语言的研究人员看到了一个与实体结合的机会,大家非常感兴趣。
技术难题有两个方面:
第一,和传统的在服务器上刷榜不同。以前做视觉语言,你有一台服务器就够了——下载 Benchmark、调模型、训练、测试,精度比别人高就能发论文,迭代周期很快。但 VLN 要跟机器人结合。早期(2018—2019 年)大家还没放到实体上,而是构建了一个仿真模拟器——虚拟的机器人在虚拟的家庭场景中走来走去做任务。数据集不再是纯粹的图像视频数据集,而是一个模拟器。
第二,也是更重要的挑战——实体部署。我们做了几年 VLN 之后,觉得只在仿真系统里刷精度仍然没有达到我们想要的效果。我们真正想把算法跟实体结合起来。2022—2023 年间,我们招了做机器人架构设计的工程师,把整个机器人组装起来,协同算法团队做软硬结合的部署。
ZP:2023 年你们算是全世界率先实现了 VLN 模型的真机部署,这一步的跨越有多大?
黄岩:我们做了几年仿真,同步也有工程师维护实体系统,但始终没有办法很好地结合。VLN 作为一个非常新的任务,和传统的视觉导航、目标导航不一样,它通常出现在视觉语言或多模态领域,而不是机器人控制领域——两个圈子是分开的。
从视觉语言导航的角度来讲,最开始大家是没有尝试在实体上部署的。当时搞多模态和大模型的思路就是"把数据给我,我刷精度就行"。大家也不关心是不是要在实体上验证。但我当时确实想知道:我们的算法研究了这么多,到底有没有用?在实验室场景下到底能帮我干多少活?我始终坚信做的东西要让它发挥价值,不能只是去刷精度。
ZP:实体部署后测出来的效果跟仿真环境相比差距有多大?
黄岩:差距很大。仿真效果可以达到七八十(百分),但实际部署的话效果非常差,甚至低于 10% 都完全可能。原因有两方面:
一是硬件构型不一样。仿真系统中会假设一种机器人构型——高度多少、摄像头什么样、每步移动多少。但你真正搭建的机器人系统,即使也是轮式导航,总体还是不太一样。比如你预测往前走 0.5 米,但实际机器人可能每步只能走 0.1 米。这个问题倒还可以通过加一些模块来处理。
二是更大的问题——Sim-to-Real Gap。虚拟数据训练出来的模型拿到真实场景下测试,本身就是巨大的挑战。这也是现在做具身智能,大家越来越重视用真实场景数据来训练模型,而不是用合成数据或生成数据的原因。
ZP:2023 年你们还拿了无人机视觉语言导航竞赛的冠军。地面机器人导航和无人机导航在技术上有什么区别?
黄岩:首先构型不太一样:地面是轮式的家庭机器人,无人机是室外的空中机器人。场景也不同:家庭场景范围小,物体多;户外场景范围大,周边更多是建筑物和马路,物体多样性差一些。
但本质上都是把视觉输入和语言输入作为模型输入,然后产生行为。行为类型不一样,但大致流程是类似的。难点不同:无人机关注的是大范围导航,距离可能从几公里到十几公里不等;家庭场景更关注物体多样化和场景泛化性——比如让机器人去冰箱找东西,它知不知道冰箱可能在厨房附近。
ZP:后来你们带队拿了 Google Habitat 竞赛冠军,在训练样本极度稀缺的情况下,导航成功率还比第二名提升了 3% 以上。能介绍一下这个竞赛和成果吗?
黄岩:这个竞赛是面向机器人轮式导航的,主办方是 Google 等机构在 CVPR 期间联合举办的,吸引了非常多参赛队伍。我们所谓的提升 3% 是跟第二名相比的——在众多参赛队伍的情况下,我们仍然比第二名高出 3%。
我们提出了一种能够自适应环境的路径规划算法,特别擅长解决局部空间有混淆的候选路径问题——在这种情况下我们能比较准确地推理出真正想走的路径,成功率有稳定提升。
ZP:这个方案在当时是其他竞争对手常用的吗?
黄岩:不是。在多模态路径规划方面我们是创新的。后来我们以竞赛的核心算法为基础,整理成论文投稿到领域顶刊 IEEE T-PAMI,很快就被接受了。
另外补充一个比较新的工作。我们在做纯粹的零样本视觉语言导航——借用大模型等一系列模型的能力,构建一个视觉语言导航系统,不需要在新场景下采集大量数据就可以直接测试,也能达到不错的效果。
我们始终关注导航模型在实际中能不能用起来。很多时候如果部署到真实场景还需要采集大量数据,那意义就不大——代价太高,也不具有跨场景的推广性。我们第一次提出在真实连续场景下做零样本导航,取得了非常不错的效果。
C. 技术深潜②:超少样本 × 世界模型 × 人在环路强化学习
ZP:接下来说说您的新架构 FAM 1.0,这是个什么框架?
黄岩:FAM 是一个 VLA(Vision-Language-Action,视觉语言行为)架构。前面讲的 VLN 是视觉语言导航,关注机器人怎么走;VLA 关注的是机械臂怎么运动的问题。
我们因为关注工业场景——工业场景不可能让你派一个数据采集团队在那里疯狂采数据。所以现有很多对数据需求量很高的具身大模型方法是不适配的。我们要解决的首要问题是:能不能降低模型对数据的需求量?
行业内大部分思路是"模型确实需要大量数据,那就去疯狂采数据"。我们考虑的是:能不能在架构上做调整,让模型不要过度依赖数据?
我们分析了目前具身模型的架构,发现了一个问题:具身模型的输入可以是二维或三维的视觉数据,输出涉及机械臂手部行为轨迹——也是三维空间中坐标点的序列。也就是说模型的输入输出都涉及带有空间结构的高维信息。但模型内部流程反而把这些信息压缩了——大部分具身大模型会利用视觉语言大模型,把高维信息整合成一维的向量,空间结构信息丢失了。保留的更多是偏向物体颜色、属性等语义信息,而模型最终输出又要从一维升回三维。这是一个类似"漏斗"的形状。
我判断这可能就是模型需要大量数据的原因——因为理解不了空间结构,你就需要喂给它大量数据让它"硬学"。虽然不理解,但经历所有可能性后也能学会。
所以我们抓住这个"维度瓶颈"的问题,把中间低维的向量拉高到三维,让空间结构信息在整个模型中都能流动,不存在空间结构信息的损失。这样做之后,模型不需要大量数据就可以达到同等效果——极限情况下数据量甚至可以减少 100 倍。
ZP:FAM 框架里有超少样本大模型、世界模型和强化学习三类技术,它们是缺一不可的吗?
黄岩:其实是可以独立使用的。我们最早发布的版本其实只有少样本模型,还没有加入世界模型和强化学习。很多场景下,只靠少样本就能解决绝大多数问题。
世界模型更多是在安全性要求高的场景中才需要加强——如果场景不需要那么严格的安全可控,也可以不用。
强化学习则是在需要精细化操作时使用,比如线束插拔这样的精密任务。如果只是分拣、搬运等相对粗放的操作,不用强化学习也许也可以。
所以我们的核心更多放在少样本大模型上。1.0 版本的核心就是少样本。未来 1.5 或 2.0 版本会分阶段逐步整合三种技术——我们希望不是串行的融合,而是有机的整合。比如具身大模型和世界模型体量都是 3B 或 7B 左右,能不能在一个架构上实现?我们已经有了比较好的尝试结果,证明可以整合在一起。强化学习也不会单独做一个独立模块,而是和具身大模型的预训练、后训练等过程有序结合。我们追求的是一个非常紧凑的、能实现三个模块能力的单一模型。
ZP:在行业维度上,FAM 架构跟全球主流的 VLA 路线有什么区别?比如 Google 的 RT-2、Berkeley 的 Octo?
黄岩:你提到的这两个其实是比较老的,都是 2023 年的工作了,整个领域已经不太关注这些方法了。但我可以简要说一下我们的特点:我们关注的不是纯粹从采集真机数据或生成数据的角度去做,而是通过模型的架构创新来实现少样本能力,提高样本利用效率。使用同样少的样本,我们的效果比别人好;使用同样多的数据,我们的效果也更好——因为我们使用样本的效率更高。
ZP:其他主流技术路线都没有从"数据效率优先"这个角度切入吗?
黄岩:很少,特别是"数据效率优先"。无论是大模型还是大语言模型,大家的经验是那种数据不缺,所以更多还是倾向于"搞到足够多的数据,精度立刻就有提升"这种更直接的方案。
但我们的出发点是:现有的具身数据,即使去采集,积累效率也没有那么快。要积累到能训一个具身大模型的数据量,可能还需要很长时间。在短期内冲着实际需求,我们才考虑通过架构创新来提高数据效率。当然这两条路线并不矛盾,即使数据量积攒足够了,也可以通过架构创新进一步提升精度。
ZP:其他比较主流的方案还有哪些?
黄岩:目前有几条主要路线:
第一条是基于视频基础模型的架构,借用视频生成预训练模型的能力,结合网络上大量的人类操作视频,看能不能把这个能力迁移到机器人操作上。这是目前比较火的一个方向。
第二条是改进数据采集方式,让采集效率更高。比如基于 UMI(Universal Manipulation Interface)这类数据采集方式,理论上可以做到全球分布式采集数据——人只需要带上手套或夹爪就可以采集数据。这是从数据采集方式创新的角度考虑的。
再往早一点,更多是基于多模态大模型,把视觉语言大模型的能力迁移过来做。更早的话,基本是基于遥操作采集数据,或者基于仿真系统生成数据。
ZP:数据需求降到 1% 的话,是不是意味着一个场景只需要几十条视频数据就能让机器人学会新任务?
黄岩:对,是这个意思。但我们始终认为,真正想要实现具身智能的"GPT 时刻",数据量的积累仍然必不可少。
我们认为有两条主要路线:一是不断积累数据,无论是利用网络上的视频还是用夹爪去采集,看数据量什么时候能达到足够训练一个泛化的具身大模型的状态。二是我们关注的——能不能从架构方面降低模型对数据的需求量。我们对数据积累的速度更悲观一些,可能即使采集效率很高,也需要很长时间积累到足够的数据。所以不如先从架构方面去弥补数据不足。
这两条路线并不矛盾——即使数据积攒够了、有了很好的初步模型,也可以通过架构创新进一步提升精度。从大语言模型的发展历史就可以看出这一点。
ZP:不同任务的数据需求有什么差异?
黄岩:简单任务比如分拣、抓取,使用的数据量确实要少一些。但不能完全以任务来定——如果分拣的物体完全非标准化、或者种类特别多(比如要分拣一万种东西),那也很有挑战性。数据量的多少,一方面跟任务形式有关,另一方面跟操作物体的类别有关,还有所在场景的多样性,是共同决定的。越复杂的任务,数据量一定要更多。甚至有些时候特别复杂的任务,采集了很多数据也不一定达到很高效果——比如需要触觉介入、力反馈,或者操作区域非常精细。
ZP:少样本路线的潜在天花板或风险是什么?
黄岩:虽然我们号称少样本,但并不是说预训练的时候数据量也要少。我们是说微调时需要的真实场景数据少一些。所以它仍然受制于预训练模型的基础能力。我们目前是基于网络上的公开数据来做的,如果未来有更好的数据采集方式或更大规模的数据,基础模型能够更新迭代的话,对我们整体的能力会有比较大的提升。
D. 行业判断与未来
ZP:去年年底很多公司包括小米、蚂蚁都在押注人类行为数据采集,也有新创业公司把这个作为切入点,说会有新的模型架构范式出现。包括 UMI 也挺流行的。您怎么看?
黄岩:数据采集效率方面确实有进展。但从架构角度来讲,据我了解大家的总体流程和每个模块的功能其实是类似的。我承认在数据编码层面,以前可能是普通视频数据,现在可能变成鱼眼数据之类的,会有调整。但纵观大模型、视觉语言大模型和具身大模型,模型架构的创新挑战性比较大,大家基本上还是基于相对同质化的架构,重点关注数据体量的比拼和学习算法的不同。
纯粹从数据类型不同来带来少样本能力,我个人觉得比较难。如果架构层面没有改变,只是数据更高效了,也许有一定提升,但一定要配合架构创新。
ZP:Genesis 他们的新模型让大家普遍认为具身智能到了一个分界点——Scaling Law 终于在具身模型领域可以看到了。您觉得会带来新浪潮吗?
黄岩:肯定会带来一波浪潮,这已经在发生了。但关于 Scaling Law:从我个人观点来看,Scaling Law 是大语言模型中最先提出来的,面向的是各种复杂任务。而具身领域目前更多还是单一场景、单一任务的计算,还不算是非常完备的 Scaling Law 验证。
至于架构创新,我倒觉得大家可能会更把目光放在如何高效采集数据上——我看到很多公司都宣称要往这个方向转。
但需要关注一个点:如果训练一个大语言模型都需要百亿、千亿的数据,具身大模型的任务复杂度指数级地高于大语言模型——还涉及物理世界的交互——那需要的数据量要在百亿、千亿的基础上再加几个零。我们想要堆叠这么足量的数据,涵盖不同本体、不同场景、不同对象,在三五年内能不能实现?这非常具有挑战性。
ZP:大家都在说泛化,但比如"推石头时不给指令就自己学会轨迹"这种其实是局部泛化,跟大语言模型的智能涌现式泛化还挺不一样。
黄岩:对,挺不一样的。那个只是非常局部的泛化,它也并不是说完全没学——之前肯定学了一些东西,只是没有一模一样的数据而已。
ZP:您觉得今年具身领域除了数据路线之外,还可能有哪些新的机会点或技术创新?
黄岩:我觉得具身方面的预训练算法值得关注。现在数据肯定不够,但就现有的这些数据,预训练方式能不能有创新?大语言模型和视觉语言模型在预训练方面已经有很多创新性体现。但在具身领域这块考虑得还比较少。当数据量足够的时候,这一块也会被大家关注。
另一个非常重要但关注不够的问题是:具身数据下的视觉理解能力。语言方面已经很强了——无论是长程任务规划还是任务管控,多模态大模型和智能体完全不用愁。但更核心的问题在于视觉方面、视觉动作的理解能力——也就是具身大模型的视觉编码器怎么做得更好。这方面还有比较大的创新空间。早期基于 ViT 做视觉编码,后来加 3D,今年又有人考虑用视频基础模型,对视觉理解都有提升,但还不够。未来可能还会有时空 3D 的或者更有利于视觉编码的模块出现。
ZP:李飞飞(Fei-Fei Li)团队说的空间智能是不是类似的方向?
黄岩:她做的更多算是生成三维信息、生成未来的状态,整体属于世界模型的大范畴,我认为还不是纯粹的这方面。
ZP:未来两到三年,中国团队在具身智能中处于什么位置?怎么看中美差距?
黄岩:中国的具身智能公司发展都非常好,大家非常积极地往前推进,取得的进步有目共睹。差距可能在一些相对原创的点上——比如数据采集方式、数据利用方式、模型架构方面。
从今年开始,中国的具身智能团队更加重视技术的商业化落地能力,不仅国内,国外推进也非常快。这是我们国家擅长的——一个新技术怎么真正用起来、加速生产。在这一块中国绝对占据优势。
ZP:如果对标 GPT 的发展阶段,现在具身智能处于什么时刻?
黄岩:如果让我说的话,我的看法相对保守。我觉得现在还没有到 GPT-3.5 的时刻,应该还处于类似 1.0 左右的时期,真的要到 3.5,我期望的状态是:数据不说足够了,但至少要找到一个看起来几年内确实能达到非常高效的数据采集形式,并且基于一定规模的数据,训练出来的模型在不同场景、不同任务、不同对象上确实具有很强的泛化性。这个目前暂时还没看到。






