高德全自主具身机器人炸场亦庄马拉松,拿下「导盲」这道硬核考题

今天上午,北京亦庄再度迎来了一场属于机器人的「硬核大考」。
2026 人形机器人半程马拉松比赛正式鸣枪开跑!
来自国内外数十家团队的 300 余台机器人同场竞技,在城市主干道、GT 赛车级复杂路段等多样地形中展开比拼,角逐出各个赛事的最终赢家。
在一众高矮不同、形态各异的人形机器人中间,一只格外醒目的四足机器人进入了我们的视线。打听后才知道,它是高德地图首次亮相的机器人产品,名字叫做「高德途途」。

与其他机器人在固定赛道比拼速度不同,高德途途是带着一位视障少年参加的障碍赛,它不依赖预设路线,也不需要人工遥控,就可以在真实开放环境中自主判断路线、独立行动。看清眼前的路况还不够,它还能结合全局信息感知到视野之外的变化,行进中更安全、可靠。

除了看得准、看得远,高德途途的思考能力也远非以往机械执行命令的同类型产品所能比。它会先理解意图,再决定如何做,并在遇到复杂环境时根据实际情况决定绕行还是通过。

多项能力的加身让高德途途开始真正融入现实生活,并凭借更强的自主办事能力,在更多场景展现出实际价值。
以往不敢让机器人替我们完成的事情,比如出门买咖啡、送快递、甚至导盲带路,现实可行性显著提升。
尤其是在导盲场景,高德带着自家四足机器人展开了一场极限条件的能力验证。现实世界的复杂路况、突发干扰,以及路径选择和实时避险,每一步都对传统导盲系统构成巨大的挑战。
作为全球首款开放环境全自主具身机器人,高德途途经受住了一系列高强度考验,在充满不确定的环境中持续做出判断并完成任务。
在揭秘它靠什么来扛住这个高难场景之前,我们有必须讲清楚,开放环境下的导盲到底卡在哪些地方。
导盲这道分水岭
为何迟迟没被跨过去
说到导盲,大家脑海中可能会浮现出这样的画面:视障人士牵着一只传统导盲犬或者智能导盲机器人,为他们带路,抵达目的地。
然而,如果将导盲放到开放环境中,其实远不止带路这么简单,而是多样任务叠加在一起。
从任务尺度来看,导盲覆盖跨层级的连续任务,近距离进行递物、取物这类精细交互,中距离完成取件、配送等流程调度,远距离则要保证在复杂街区导航甚至地铁换乘中的安全。
这些需求本身已经在逼近一套系统能力的上限,要真正跑通,绕不开以下三个核心难点:
一是长尾不确定性。真实世界没有标准场景,突发情况几乎不可避免;二是安全要求极高,任何一次判断失误都可能给视障人士带来危险;三是空间语义不完整,很多关键位置(如入口、通道)缺乏清晰、系统标注,需要系统自己理解判断。
这也解释了为什么过去的方案一直做不成。靠规则拼接,只能覆盖一小部分情况,一旦环境变了就容易失效;只靠单一感知模型,即使看得见,也未必真的理解了,更别说及时做出适当的反应。
导盲真正难的不是识别本身,而在于准确判断什么时候该避让,什么时候跟随,并在不断变化的环境中把动作稳定连贯地做下去。迈过这一步,才算是真正从实验室的演示,走到现实世界的可用。
从高德途途目前的表现来看,在导盲这样的场景中,它已经展现出了一条可落地的解决路径:能自己出门,能理解意图,也能把事情做完。
这一切的实现远非单个模型所能及,背后有一整套系统在支撑:从长期积累的空间智能数据,到导航与操作基座模型,再到负责统一调度与执行闭环的智能中枢,它们构成了高德 ABot 全栈体系。
这是一个贯通数据、模型与 Agent 的三层架构,数据层依托 ABot-World 世界模型,模型层依托 ABot-N0 导航决策与 ABot-M0 精细操作,Agent 层依托 ABot-Claw 任务调度与闭环纠错。

ABot 全栈技术架构图
当落到导盲场景,则由 ABot-N0 提供开放环境下的导航能力底座,ABot-Claw 贯通意图理解、记忆检索、任务拆解、动态调度与闭环纠错,它们共同支撑机器人完成长程、跨域连续任务;在需要具体物理操作时,ABot-M0 介入完成最后一步。
这套 ABot 全栈体系的加持,才让高德途途有底气向导盲代表的一类最典型真实世界问题发起挑战:开放环境、长程任务、极高安全要求与极低容错空间。
当这类问题有了解法,带来的影响不再局限于导盲本身。像城市配送、巡检、服务这些同样需要在开放环境中长期运行的任务,也在同一条能力线上。导盲能跑通,这些场景离真正落地也更近了一步。
具身导航与操作
打造双核心通用基座
将这两年具身智能的发展拉长来看,我们会发现一个明显的趋势:模型能力在不断变强,但系统层面的整合依然是个难题。
不同厂商、不同形态的具身机器人,大多仍在使用各自的动作表示和数据体系,导致彼此之间很难打通。数据复用受限,模型迁移成本高,换个新场景就得大量重新适配。这也是为什么不少系统能在单项任务上做到很高水平,但一旦放到同一个复杂场景中便容易掉链子,很难真正配合起来。
说到底,单个模块的强弱已经不起决定性作用,更大的问题在于缺少一套将不同能力统一起来的基座模型,既能覆盖不同任务,又能在不同场景与不同机器人形态之间用得起来。
正是在这样的背景下,高德选择推出 ABot 系列具身基座模型,包括导航基座模型 ABot-N0 和操作基座模型 ABot-M0,它们让机器人走进开放环境并稳定运行有了现实可行性。

其中负责机器人「腿」的 ABot-N0 被打造成为业内最强导航基座模型,基于业内首个面向具身导航的流强化学习框架,让机器人在城市级动态环境中持续决策,理解人流、规则等复杂因素,而不是只做静态路径规划。
ABot-N0 的一大核心突破是将导航从「多任务拼接」重构为一个「统一模型」驱动的能力体系。简单来说,原本分散在不同模型里的导航能力,现在可以在一个模型里解决。当这些能力不再与某一项任务或某一种机器人形态深度绑定时,它们具备了更强的迁移能力。同一套「导航大脑」可以在四足、轮式和人形等不同机器人上复用,具体的执行只需要根据结构进行适配即可。
现在,ABot-N0 可以一对多地处理五大类核心导航任务:按坐标走到指定位置(Point-Goal);在陌生环境找到目标物(Object-Goal);理解并执行复杂指令(Instruction-Following);跟随行人在动态环境中移动(Person-Following);识别商场、店铺等兴趣点(POI-Goal)并导航至入口。

当然,这些能力不是简单堆出来的,源于 ABot-N0 在架构上的取舍,它把思考和行动分层处理,并在同一套 VLA(视觉 - 语言 - 动作)框架下将理解、决策和执行衔接了起来。整个系统可以拆解为以下三层:
第一层是统一多模态编码器,它负责将图像、历史观测、文本指令、空间坐标全部映射到同一个语义空间。不同任务在进入模型之前就已经「说同一种语言」,后面的决策可以在同一个上下文里展开。
第二层是负责「想明白」的认知大脑。它基于预训练的大语言模型,但没有简单沿用主流串行 CoT 的方式,而是做了一个更偏工程化的设计:把推理和动作拆成两个分支,提出了任务条件式双头设计(Task-Conditional Dual-Head),需要理解场景、判断规则时交给推理头,需要快速执行动作时直接调用动作头。并且,这两部分不是一前一后的串联关系,它们基于同一套内部理解协同工作:很多推理并不会被显式输出,但会直接影响后续动作决策。
最后一部分是动作专家,负责「把事情做出来」。它采用流匹配生成连续轨迹,一次给出一段平滑的运动路径,比如 5 个路点(x, y, z, yaw)。这让机器人在面对复杂环境时能够走得更自然,也能在多种可行路径之间灵活选择。

ABot-N0 架构示意图
ABot-N0 之所以能把导航能力做统一、做泛化,很大程度上依赖其构建的具身智能领域目前最大的数据引擎:包括 7802 个高保真 3D 场景、覆盖五大导航任务的 1690 万条专家轨迹以及覆盖空间关系、社会规则和长程规划的 500 万条推理样本。
这样的数据规模是建立在高德长期积累的场景资产和空间能力之上:从真实世界的三维重建到场景理解再到生成式世界模型,这些能力让大规模高保真训练环境成为可能。

从结果来看,ABot-N0 这套方法在工程上完全跑得通,在一系列高难度基准上与现有方法拉开了明显差距。并且这种领先不是集中在单一指标,横跨了多个任务和场景。
在 7 项国际权威具身导航基准(CityWalker、SocNav、R2R-CE、RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench)上,ABot-N0 全部达到 SOTA,覆盖从室内到室外、从静态环境到人机混行的多任务范围。
举一个有代表性的场景,在 SocNav 闭环导航 中,ABot-N0 成功率达到 了 88.3%,相比此前最优方法提升超过 40 个百分点,同时合规性指标从 30% 区间飙升到 85% 以上。显然,走通路径已经不在话下,更开始在真实人类环境中学会如何避让、如何通行。

可以说,ABot-N0 是在五大导航任务、七类基准、数十个强基线上全都强势胜出。相关多个子研究成果也已被 CVPR 等顶级会议接收,工程效果和学术价值都得到了验证。
其中最具代表性的,高德联合浙大提出的社会化导航基座模型 SocialNav,在具身导航领域首次引入基于流的强化学习框架,并以 6/6/5 接近满分的成绩入选 CVPR Oral。这项工作通过分层设计和多阶段训练,让机器人在复杂人类环境中不只「走得到」,还会遵循交通规则和社会规范,真正把导航从单纯的路径规划推进到更接近现实世界的社会化决策。论文地址:https://github.com/AMAP-EAI/SocialNav

ABot-N0 解决了「往哪走」的问题,ABot-M0 负责「把操作动作落实下去。」 但要把这一步做好,绕不开一个问题:机器人是不是一定要依赖一套封闭的数据体系才能把动作做对。
过去大多数系统都走了这条路,不同机器人、不同任务各自采集数据、各自训练模型,彼此之间几乎不通,动作表达也不一致。结果就是,在一个场景里表现不错,一换环境就失效,很难形成真正能迁移的能力。
ABot-M0 走的是另一条路:没有围绕某一类机器人或某一类任务单独建模,从一开始就用一套统一的动作表示,把来自不同来源、不同形态的数据放到同一个体系里。
围绕这个思路,ABot-M0 在数据、表示和训练方式上都做了调整:聚合全球范围内的异构开源数据,对齐不同机器人之间的动作表示,让原本割裂的数据能够在同一套逻辑下被模型学习,最终形成了一个可以跨任务、跨本体迁移的操作模型。
首先在数据层面,ABot-M0 把来自不同机器人与任务的大规模数据统一起来,构建目前最大的开源异构数据集 UniACT,时长超过 9500 小时、轨迹达 600 多万条、具身形态超过 20 种。
并且,构建这一数据集的过程本身就是在做标准化,不同来源的数据在动作表示和机器人结构上被统一起来, 其中使用末端执行器(EEF)的增量动作来描述操作,采用补零到双臂(Pad-to-Dual-Arm)策略对单双臂做一致建模。这样一来,数据更多的同时,不同来源的数据第一次实现对齐,让跨任务、跨本体的泛化能力有了现实基础。

接下来,ABot-M0 在表示和训练方式上做了关键调整:不让模型先学去噪再慢慢还原动作,直接去学「什么样的动作本身就可行」。原因也不复杂,真实世界可行的动作不是到处都有,它们往往集中在一小块受物理规律和任务约束限制的有效区域里。与其在整个空间里找答案,不如一开始就把学习范围限定在这块有效区域内。
基于此,ABot-M0 用动作流形学习(AML)替代了传统的扩散式生成方式:放弃像过去那样从噪声一步步还原动作,以 DiT 为骨干网络直接预测一段连续、可执行的轨迹。带来的变化也很直观,推理步骤更少,动作更连贯,在复杂场景下更稳定。即便大幅压缩推理过程,模型依然能保持性能,而传统方法往往会明显下降。

最后,ABot-M0 进一步加强了空间感知能力。光靠 VLM 理解画面里有什么还不够,真正难的是判断「它们之间是什么关系」,比如前后远近、遮挡、角度,这些都会直接影响动作能不能做对。
ABot-M0 没有去改动原有的 VLM 主干网络,而是多加了一路专门处理空间信息的感知模块(如 VGGT、Qwen-Image-Edit):用语义模型理解任务意图,用 3D 信息判断物体的位置关系和操作角度,两条路径在内部一起参与决策。有了这层空间信息,机器人对视角变化和环境扰动的适应能力更强。

ABot-M0 架构图
ABot-M0 在操作侧的表现同样不是个别任务上领先,在 Libero、Libero-Plus、RoboCasa 等一系列难度较高的操作评测中均达到 SOTA 水平。
其中最有代表性的是 Libero-Plus,它是一类强调跨任务与泛化能力的基准。ABot-M0 的任务成功率达到了 80.5%,相比此前的标杆方案提升近 30 个百分点。这说明了模型在面对未见过的组合任务时依然能够稳定完成操作。

把 ABot-N0 和 ABot-M0 放在一起看,一个变化正在发生:具身智能开始围绕模型搭体系。导航侧通过统一模型打破任务边界,操作侧通过统一数据打破本体差异,并且数据、表示和训练方式的变化也在不断降低能力迁移的成本。久而久之,具身智能逐渐逼近通用系统的形态。
两大基座模型更多细节请移步项目主页与技术报告:
ABot-N0:
论文地址:https://arxiv.org/pdf/2602.11598
项目主页:https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
ABot-M0:
论文地址:https://arxiv.org/abs/2602.11236
项目主页:https://amap-cvlab.github.io/ABot-Manipulation/
从喂数据到边用边学
跑通一套闭环系统
ABot-N0 和 ABot-M0 把机器人「往哪走」和「怎么做」两件事弄清楚了,接下来面临两个更现实的问题:这些能力从哪来,又怎么在真实环境里稳定跑起来,它们很大程度上决定了具身系统的上限。这正是 ABot 全栈体系中数据层和 Agent 层要解决的核心痛点。
其中数据层的 ABot-World 想要解决的是一个更底层的问题:机器人是否见过足够多足够真实的世界。机器人难以泛化的很大原因便在于数据少、获取慢、也永远覆盖不完真实世界的长尾情况。

ABot-World 双引擎驱动架构:ABot-3DGS(数字孪生工厂)× ABot-PhysWorld(物理引擎内核)
ABot-World 的思路是,依托自有地图与脱敏数据,结合 3DGS 技术实现厘米级重建与光照一致性。模型已累计生产万级 3D 真实场景、百万级推理数据与千万级训练轨迹,覆盖 99% 的典型生活场景。通过模拟各种复杂情况,让模型提前见到足够多的场景。这件事能成立正好踩在了高德的强项上。高德一直在做的就是把真实世界一点点搬进地图里。基于此,高德有能力把整个环境还原出来,用来训练机器人。
在 WorldScore、WorldArena、AGIbot、PBench、EZSBench 等权威评测榜单上,ABot-World 都拿过 SOTA,甚至在一些指标上力压了英伟达 Cosmos、谷歌 Veo 和 OpenAI Sora 2 等多个开闭源方案。
ABot-World 系列也发布了首个子工作 ABot-PhysWorld,它将关注重点放在了「这些世界是不是真的能在现实中成立」上,不像大多数现有模型追求画面合理,更关心生成过程在物理上是否说得通。

同时,现实世界的任务往往不是单一指令,要复杂得多:理解意图、拆分步骤、找位置、做动作,还要随时应对突发情况。Agent 层的 ABot-Claw 要做的就是将涉及到的这些能力统一调度起来,真正组织成一个可以端到端完成任务的系统。

ABot-Claw系统架构图
ABot-Claw 构建了一套 Vision-Spatial 双中心的跨具身共享记忆系统,通过四层结构完成空间与语义的统一:图像语义层负责看到的内容、几何地图层负责空间结构、物体中心拓扑层负责物体之间的关系、地点锚定层负责语义和位置的对应。
这套结构解决了几何地图「能带你走过去,但不知道那是什么」、语言模型「知道是什么,但不知道怎么走过去」的两难问题。ABot-Claw 直接将两套系统融合到同一记忆体系中,并且记忆是跨具身共享的。新设备接入后,直接继承已有认知。过去的成功和失败会也被记录下来,随时被调出来用。每一次任务执行都成为了一个可以不断积累经验的过程,让机器人从「一机一图」走向「共享一套世界记忆」。
有了调度和记忆,还缺最后一块拼图,即如何在不确定世界中持续完成任务。ABot-Claw 对此的解法是:引入一套 Closed-loop Reflection & Self-Correction(闭环反思与自我纠错)机制。
这其实很接近人类的做事方式,边做边修正。整个过程不是简单的下指令 - 执行,开始变成一个持续的循环:先试一下、看结果、调整、再试。具体体现为三级自适应决策闭环,依次是执行、评估与进化。由此,机器人的角色也从一个执行工具逐渐转变为会自己决策的系统。
像「找一瓶可乐」这样的任务,如果第一次没找到,它会自己换个地方再试,而不是直接放弃。这种做法才是应对真实世界不确定性的关键。
当「学」和「用」连成一个循环,系统开始具备持续进化的能力。这或许是具身智能走向长期可用的分水岭。
结语
具身机器人发展到现在,业界逐渐达成了一种共识:单一任务的突破已不足以应对日益复杂的应用需求。机器人要在固定环境中稳定执行任务,也必须适应多变的环境。
高德 ABot 全栈体系不仅成功支撑高德途途在开放环境中完成导盲任务,还为行业提供了一个值得借鉴的范本:
通过数据层、模型层和 Agent 层的紧密结合,ABot 将感知、决策、执行这些能力高效整合在一起,不像传统上那样单个模块各自为政。
这样既能提升任务执行效率,也让机器人在身处复杂、动态的现实世界时更加游刃有余。
此次,高德不仅仅是在某个特定场景取得突破,也开启了具身智能从实验室走向真实世界的一个标志性节点。未来的机器人,更加可期。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
