走向 AGI,高德为什么要从机器导盲犬开始?


“开放环境具身” 的高德答案。
文丨江思远
4 月,北京亦庄的一处红绿灯路口,一只蓝色的机器狗正在原地安静等待。
绿灯亮起,机器狗迈步,通过身上牵引绳传导,提示身后的主人跟上——那是一位视障大学生。
这是高德四足具身机器人 “途途” 第一次公开上路。可能也是具身智能行业,第一次用这样的方式面对公众——不是表演,不是展示,而是一场真实的导盲检验,只有真实的道路、人流,和身后的视障同伴。

机器导盲,很难吗?
当天,除了过红绿灯,途途的脚步还引领着他的主人,完成了一系列挑战:规避动静态障碍,连续绕行穿越狭窄通道;实时预判、灵活避让突然出现的干扰;穿行密集人群,自主寻找补给站等。
近两年来,对很多人来说,具身智能最典型的画面发生在封闭空间,或者人工预设遥控的场景里:在屋里叠衣服,弯腰提起一个杯子;或者走到空地上,沿着预先安排好的路线,完成一段展示和表演。
但它们有一个共同前提。机器人所处的环境被事先周密地整理过,背景干净、变量有限、任务边界清晰,偶发因素被压到了最低。
而 “导盲” 几乎和上面所有 “可控要素” 背离:
在一个无限开放、持续变化的世界里,机器要同时判断空间、障碍,以及每一步的风险。人会突然停下来、自行车会斜着穿过路口、盲道被占……还有低垂下来的树枝、台阶、积水——所有这些时刻变动的要素,都不会提前打招呼。同封闭环境的 Demo 相比,这是完全不同的难度级别。
高德工作人员在接触视障用户和相关机构之后,一个明显的感受是:很多普通人默认成立的通行条件,对视障者来说并不成立。普通人把 “到达” 理解为从 A 点到 B 点;视障者面对的却是另一套问题:这个路口能不能过?有什么?怎么过?安不安全?很多靠经验和直觉就能完成的判断,到了这里都变成了门槛。
对视障者来说,独立出门是极其困难的一关;其实对机器人来说,也是如此。 “走出家门” 意味着机器要有极高的开放环境导航能力,对物理空间有持续且深入的理解,同时和人的步速配合,理解人的指令,最后还要满足近乎苛刻的安全标准——一旦失误,可能危及用户人身安全。
因此对具身行业来说,导盲不是一个偏门场景,而是把问题提得更尖锐了:行,还是不行?不会给任何容错空间,没法靠后期剪辑回避问题,那些在实验室里还勉强能成立的 demo ,都会在现实世界露馅。
行业里早已不缺生产出来的机器人,越来越多人开始对各种漂亮 demo 发出疑问:它到底是在理解世界,还是只是在表演一套排练过很多遍的流程?
高德挑选了一个几乎不允许出错的场景。就是想要验证:具身智能,到底能不能真正融入现实世界?
一条狗的使命:全自主走向开放世界
在我们和高德具身业务负责人诚卿、具身算法负责人徐牧的交流中,他们把目前具身智能面临的问题概括为:数据缺乏、泛化能力不足,以及模型和产品之间的断层。
这也是具身智能和语言智能最大的不同。语言模型可以靠互联网语料快速扩张能力边界,哪怕有噪音和偏差,也能在海量试错中摸索出一些稳定运行的范式;具身智能则不同,机器人和世界打交道,需要对物体、空间、动作、时间、意图之间的复杂交互关系有深刻理解,容错率更低,也更难标准化。
高德给 “途途” 的定义是 “开放环境全自主具身机器人”。其实拆开来看,重点不在 “具身机器人”,而在 “开放环境” 和 “全自主”。前者意味着它面对的并非一个被规划好的空间,后者意味着它不能依赖遥控和预设路线。这两个词,差不多划出了和行业内多数产品的的边界。
根据高德官方的表述,途途有三层递进的能力:能出门、会思考、会导盲(即能干活)。从整个行业来看,过去并没有具身产品能够同时做到这三点。
“能出门” 不只是能迈开腿走路。今天很多机器人已经能在室内环境里完成导航,也能在小范围内避障;但只要走到开放环境中,各种突发随机要素会让一套在实验室控制下的流畅系统,迅速崩溃。
而地图导航一直以来长期处理的,正是 “开放” 问题:这种能力需要海量丰富、多元、精准的物理世界动静态数据和解析能力支撑,平时不太会被当作前沿技术谈论,但一旦被放到具身场景里,它的重要性就凸显出来——机器人要能出门,它需要应对真实开放世界的各种突发状况,更加精准无误地抵达目的地。
“会思考” 则是更高一维度的能力。如今的很多具身系统,更像一种被触发的执行器:收到命令,完成动作,任务随之立刻结束。它们能做的事确实越来越多,但很少真的像在 “理解” 一个场景。
高德认为机器人在动作之前,需要先对环境、空间和用户意图形成一个判断。例如用户对机器人说 “我渴了”,那么机器人能意识到其背后的言外之意,这是一个待完成的真实需求:去哪里买水?如何规划路线?先尝试什么?如果失败了怎么办……这些问题需要成为思考链路的一部分。
这种链路和第三层 “能导盲” 紧密衔接。而 “导盲” 这一极高难度场景背后对应的,则是具身机器人在执行通用泛化任务方面的超高要求。
很多机器人都爱秀单项能力,因为这样最直观,也最容易做出效果。但用户需要的从来不是单项能力,而是一整个连贯操作:从接受一个不那么精确描述的需求开始,到在环境变化中不断修正路径和动作,直到最后把目标完成。
这和现实世界里人的决策类似,任务几乎从来不是一次性完成的,它总带着偏差、意外和中途变化。
如果说 “能出门” 解决的是移动能力,“会思考” 解决的是认知水平,那么 “能导盲” 就代表更广泛的产品场景落地。只有这三点成立,机器人才有可能从封闭场景里的展示品,变成现实生活中的实用助手。
三位一体,全栈具身智能体系
如果只把途途理解成 “另一个机器人产品”,很容易低估高德做具身智能的决心。
高德真正想展示的并不只是硬件,而是一整套把地图导航能力、空间环境数据和机械执行操作连接起来的全栈具身技术架构——无论场景和本体形态如何变幻,其背后的架构应该是统一的。
根据他们对晚点的介绍,支撑途途的是一套名为 “ABot” 的完整具身技术架构,大体分成三层:数据与世界模型层、模型与 skill 层、Agent 操作系统层。
其中,数据是高德沉淀更深、优势更明显的地方。多年来,高德积累了大量物理世界数据:道路、路口、建筑、交通流等素材,以及在地图服务中积累的各类异常反馈与纠错数据。这些多源数据最终融合衍生出一个足够复杂、也更接近真实世界的训练底座——ABot-World。
作为一套可交互的世界模型,ABot-World 不仅能让模型学到几何轨迹,还能理解各种复杂的物理环境语义,比如 “前方是人行横道”,或者 “左侧 50 米是停车场出口”,从而成为了接近物理世界的训练环境,机器人可以在里面反复练习。
最近在 PBench、EZSbench、WorldArena、Agibot World Challenge 等主流评测中,ABot-World 均已实现登顶。
第二层是模型层。以 ABot-NO 与 ABot-M0 为核心,其中 ABot-N0 是导航基座模型,解决的是开放环境里的移动问题;ABot-M0 则更偏向操作与执行。它们在各种评测中同样取得了 SOTA (state-of-the-art)的表现。
在这一层里,不同模型被视为 Skill,导航、移动、操作等技能模块:一个机器人从接受用户指令,到导航行走,再到进入室内找到目标位置,这个过程理应是多种技能需求的混合。
再往上,是名为 ABot-Claw 的 Agent 操作系统层,也是整这套技术架构实与物理世界交互的关键。
模型能力再强,如果缺少一个中枢把意图理解、空间记忆、任务拆解、工具调用、执行监控和纠错重规划串联起来,系统依旧只能停留在 “有劲使不出” 的阶段。ABot-Claw 就可以持续组织信息、排列能力优先级,它的规划器以端云一体的大模型为推理引擎,甚至具备闭环反思与自我纠错能力。
高德还提出了一个概念:Map as Memory。
传统机器人往往只有局部感知,看到什么处理什么,视野之外的信息很快变成空白。高德的思路是,先给机器人一张持续存在的世界底图,再把视觉、感知、动作嵌进这张底图里,实现像人类一样,在更长、更稳的空间记忆里做决策。
这个三层 ABot 体系,代表了高德想要建立的 “飞轮式” 具身技术路线:涵盖数据、模型、应用三层,彼此深度咬合、互为引擎,实现 “数据驱动模型、模型服务应用、应用反哺数据”,克服数据稀缺、仿真鸿沟与技能泛化三大行业瓶颈,形成持续自我进化的完整闭环。
空间智能:从导航到具身
把具身智能放到高德自身的发展脉络里看,这并不算一次突兀的跨界。
如果说高德过去做的,是把世界描述清楚:路在哪里,店在哪里,拥堵怎么出现,用户该怎么走,怎么更准确地到达……具身则是把这件事再往前推一步:不仅描述世界,还要理解世界,并最终通过机器,在这个世界里自主行动。
去年,高德对外宣布 “AMAP-AI Inside” 战略、将自身发展主题升格为 “空间智能”,导航不再只是静态底图和路线规划工具,而是具备思考和推理能力的空间智能体。只是在当时,这种智能体还主要存在于手机和车机里,如今则是第一次拥有了途途这个身体,开始真正走进物理世界。
多年来,那些每天在高德地图各终端发生的导航纠错、定位漂移、路况变化、入口偏差,还有规模化的行为验证与反馈,汇聚成高德对物理世界的理解。这是高德具身智能业务最深的护城河,也是其选择的空间智能路线,想要贯彻的核心理念。
高德 CEO 郭宁说,空间智能对高德而言是 “终局”,并且不是高德选择了空间智能,而是本身就长在了这片土壤之上。
这可能也是高德和很多具身创业公司最大的区别。后者通常是先做机器人,再想方设法补上一个 “理解世界的大脑”;高德是先握着一套现实世界数据和空间理解体系,再决定让机器人加入其中。
很显然,高德确实站在了一个相对稀缺的起点上:它不是从零开始认识世界的。
科技向善与通向 AGI
在采访过程中,诚卿和徐牧都说,导盲场景是在仔细遴选后确定的。一方面是作为公益项目,填补导盲服务的巨大空缺、满足视障者的强烈刚需。
中国有 1700 万视障群体,而导盲犬仅有约 400 只,同时导盲犬训练周期长,成本高,也会受生物本能和环境干扰——它们是视障者的好帮手,但可能还不是最理想的答案。而高德途途,不仅符合专业导盲犬的极高标准,还没有情绪波动、不会疲劳生病、服役周期长且能随着算法迭代持续进化。
另一方面,如前文中所提到,导盲可能是当下具身智能最有挑战的切入点。高德选择了相对务实的做法。当行业还在反复争论什么才是最优先的产品形态(四足、轮式、人形……)时,先找到了导这个具体场景,纵深探索。
四足机器人是不是终极答案?可能对于高德来说并不重要。ABot 技术栈将会适配各种机器人产品形态,只是对于导盲来说,四足已经是一个足够合适的载体:稳定成熟,能够承载导盲和开放环境导航,所要求的一整套能力验证。
途途并非又一款具身玩具。它更像高德首次尝试将过去系统性的积累,完整交付给一具具体的 “身体”。
为 “人” 导航的智能沉淀,也正成为引导 “机器人” 走进现实世界的操作系统。
除了作为唱歌跳舞、情绪消费的娱乐产品外,机器人或许真的可以进一步融入现实世界,改善人们的生活,哪怕从局部微小的一点开始。
题图来源:《银翼杀手》
- FIN -

