走向 AGI，高德为什么要从机器导盲犬开始？

发布时间：2026-04-19来源：晚点LatePost

“开放环境具身” 的高德答案。

文丨江思远

4 月，北京亦庄的一处红绿灯路口，一只蓝色的机器狗正在原地安静等待。

绿灯亮起，机器狗迈步，通过身上牵引绳传导，提示身后的主人跟上——那是一位视障大学生。

这是高德四足具身机器人 “途途” 第一次公开上路。可能也是具身智能行业，第一次用这样的方式面对公众——不是表演，不是展示，而是一场真实的导盲检验，只有真实的道路、人流，和身后的视障同伴。

机器导盲，很难吗？

当天，除了过红绿灯，途途的脚步还引领着他的主人，完成了一系列挑战：规避动静态障碍，连续绕行穿越狭窄通道；实时预判、灵活避让突然出现的干扰；穿行密集人群，自主寻找补给站等。

近两年来，对很多人来说，具身智能最典型的画面发生在封闭空间，或者人工预设遥控的场景里：在屋里叠衣服，弯腰提起一个杯子；或者走到空地上，沿着预先安排好的路线，完成一段展示和表演。

但它们有一个共同前提。机器人所处的环境被事先周密地整理过，背景干净、变量有限、任务边界清晰，偶发因素被压到了最低。

而 “导盲” 几乎和上面所有 “可控要素” 背离：

在一个无限开放、持续变化的世界里，机器要同时判断空间、障碍，以及每一步的风险。人会突然停下来、自行车会斜着穿过路口、盲道被占……还有低垂下来的树枝、台阶、积水——所有这些时刻变动的要素，都不会提前打招呼。同封闭环境的 Demo 相比，这是完全不同的难度级别。

高德工作人员在接触视障用户和相关机构之后，一个明显的感受是：很多普通人默认成立的通行条件，对视障者来说并不成立。普通人把 “到达” 理解为从 A 点到 B 点；视障者面对的却是另一套问题：这个路口能不能过？有什么？怎么过？安不安全？很多靠经验和直觉就能完成的判断，到了这里都变成了门槛。

对视障者来说，独立出门是极其困难的一关；其实对机器人来说，也是如此。 “走出家门” 意味着机器要有极高的开放环境导航能力，对物理空间有持续且深入的理解，同时和人的步速配合，理解人的指令，最后还要满足近乎苛刻的安全标准——一旦失误，可能危及用户人身安全。

因此对具身行业来说，导盲不是一个偏门场景，而是把问题提得更尖锐了：行，还是不行？不会给任何容错空间，没法靠后期剪辑回避问题，那些在实验室里还勉强能成立的 demo ，都会在现实世界露馅。

行业里早已不缺生产出来的机器人，越来越多人开始对各种漂亮 demo 发出疑问：它到底是在理解世界，还是只是在表演一套排练过很多遍的流程？

高德挑选了一个几乎不允许出错的场景。就是想要验证：具身智能，到底能不能真正融入现实世界？

一条狗的使命：全自主走向开放世界

在我们和高德具身业务负责人诚卿、具身算法负责人徐牧的交流中，他们把目前具身智能面临的问题概括为：数据缺乏、泛化能力不足，以及模型和产品之间的断层。

这也是具身智能和语言智能最大的不同。语言模型可以靠互联网语料快速扩张能力边界，哪怕有噪音和偏差，也能在海量试错中摸索出一些稳定运行的范式；具身智能则不同，机器人和世界打交道，需要对物体、空间、动作、时间、意图之间的复杂交互关系有深刻理解，容错率更低，也更难标准化。

高德给 “途途” 的定义是 “开放环境全自主具身机器人”。其实拆开来看，重点不在 “具身机器人”，而在 “开放环境” 和 “全自主”。前者意味着它面对的并非一个被规划好的空间，后者意味着它不能依赖遥控和预设路线。这两个词，差不多划出了和行业内多数产品的的边界。

根据高德官方的表述，途途有三层递进的能力：能出门、会思考、会导盲（即能干活）。从整个行业来看，过去并没有具身产品能够同时做到这三点。

“能出门” 不只是能迈开腿走路。今天很多机器人已经能在室内环境里完成导航，也能在小范围内避障；但只要走到开放环境中，各种突发随机要素会让一套在实验室控制下的流畅系统，迅速崩溃。

而地图导航一直以来长期处理的，正是 “开放” 问题：这种能力需要海量丰富、多元、精准的物理世界动静态数据和解析能力支撑，平时不太会被当作前沿技术谈论，但一旦被放到具身场景里，它的重要性就凸显出来——机器人要能出门，它需要应对真实开放世界的各种突发状况，更加精准无误地抵达目的地。

“会思考” 则是更高一维度的能力。如今的很多具身系统，更像一种被触发的执行器：收到命令，完成动作，任务随之立刻结束。它们能做的事确实越来越多，但很少真的像在 “理解” 一个场景。

高德认为机器人在动作之前，需要先对环境、空间和用户意图形成一个判断。例如用户对机器人说 “我渴了”，那么机器人能意识到其背后的言外之意，这是一个待完成的真实需求：去哪里买水？如何规划路线？先尝试什么？如果失败了怎么办……这些问题需要成为思考链路的一部分。

这种链路和第三层 “能导盲” 紧密衔接。而 “导盲” 这一极高难度场景背后对应的，则是具身机器人在执行通用泛化任务方面的超高要求。

很多机器人都爱秀单项能力，因为这样最直观，也最容易做出效果。但用户需要的从来不是单项能力，而是一整个连贯操作：从接受一个不那么精确描述的需求开始，到在环境变化中不断修正路径和动作，直到最后把目标完成。

这和现实世界里人的决策类似，任务几乎从来不是一次性完成的，它总带着偏差、意外和中途变化。

如果说 “能出门” 解决的是移动能力，“会思考” 解决的是认知水平，那么 “能导盲” 就代表更广泛的产品场景落地。只有这三点成立，机器人才有可能从封闭场景里的展示品，变成现实生活中的实用助手。

三位一体，全栈具身智能体系

如果只把途途理解成 “另一个机器人产品”，很容易低估高德做具身智能的决心。

高德真正想展示的并不只是硬件，而是一整套把地图导航能力、空间环境数据和机械执行操作连接起来的全栈具身技术架构——无论场景和本体形态如何变幻，其背后的架构应该是统一的。

根据他们对晚点的介绍，支撑途途的是一套名为 “ABot” 的完整具身技术架构，大体分成三层：数据与世界模型层、模型与 skill 层、Agent 操作系统层。

其中，数据是高德沉淀更深、优势更明显的地方。多年来，高德积累了大量物理世界数据：道路、路口、建筑、交通流等素材，以及在地图服务中积累的各类异常反馈与纠错数据。这些多源数据最终融合衍生出一个足够复杂、也更接近真实世界的训练底座——ABot-World。

作为一套可交互的世界模型，ABot-World 不仅能让模型学到几何轨迹，还能理解各种复杂的物理环境语义，比如 “前方是人行横道”，或者 “左侧 50 米是停车场出口”，从而成为了接近物理世界的训练环境，机器人可以在里面反复练习。

最近在 PBench、EZSbench、WorldArena、Agibot World Challenge 等主流评测中，ABot-World 均已实现登顶。

第二层是模型层。以 ABot-NO 与 ABot-M0 为核心，其中 ABot-N0 是导航基座模型，解决的是开放环境里的移动问题；ABot-M0 则更偏向操作与执行。它们在各种评测中同样取得了 SOTA （state-of-the-art）的表现。

在这一层里，不同模型被视为 Skill，导航、移动、操作等技能模块：一个机器人从接受用户指令，到导航行走，再到进入室内找到目标位置，这个过程理应是多种技能需求的混合。

再往上，是名为 ABot-Claw 的 Agent 操作系统层，也是整这套技术架构实与物理世界交互的关键。

模型能力再强，如果缺少一个中枢把意图理解、空间记忆、任务拆解、工具调用、执行监控和纠错重规划串联起来，系统依旧只能停留在 “有劲使不出” 的阶段。ABot-Claw 就可以持续组织信息、排列能力优先级，它的规划器以端云一体的大模型为推理引擎，甚至具备闭环反思与自我纠错能力。

高德还提出了一个概念：Map as Memory。

传统机器人往往只有局部感知，看到什么处理什么，视野之外的信息很快变成空白。高德的思路是，先给机器人一张持续存在的世界底图，再把视觉、感知、动作嵌进这张底图里，实现像人类一样，在更长、更稳的空间记忆里做决策。

这个三层 ABot 体系，代表了高德想要建立的 “飞轮式” 具身技术路线：涵盖数据、模型、应用三层，彼此深度咬合、互为引擎，实现 “数据驱动模型、模型服务应用、应用反哺数据”，克服数据稀缺、仿真鸿沟与技能泛化三大行业瓶颈，形成持续自我进化的完整闭环。

空间智能：从导航到具身

把具身智能放到高德自身的发展脉络里看，这并不算一次突兀的跨界。

如果说高德过去做的，是把世界描述清楚：路在哪里，店在哪里，拥堵怎么出现，用户该怎么走，怎么更准确地到达……具身则是把这件事再往前推一步：不仅描述世界，还要理解世界，并最终通过机器，在这个世界里自主行动。

去年，高德对外宣布 “AMAP-AI Inside” 战略、将自身发展主题升格为 “空间智能”，导航不再只是静态底图和路线规划工具，而是具备思考和推理能力的空间智能体。只是在当时，这种智能体还主要存在于手机和车机里，如今则是第一次拥有了途途这个身体，开始真正走进物理世界。

多年来，那些每天在高德地图各终端发生的导航纠错、定位漂移、路况变化、入口偏差，还有规模化的行为验证与反馈，汇聚成高德对物理世界的理解。这是高德具身智能业务最深的护城河，也是其选择的空间智能路线，想要贯彻的核心理念。

高德 CEO 郭宁说，空间智能对高德而言是 “终局”，并且不是高德选择了空间智能，而是本身就长在了这片土壤之上。

这可能也是高德和很多具身创业公司最大的区别。后者通常是先做机器人，再想方设法补上一个 “理解世界的大脑”；高德是先握着一套现实世界数据和空间理解体系，再决定让机器人加入其中。

很显然，高德确实站在了一个相对稀缺的起点上：它不是从零开始认识世界的。

科技向善与通向 AGI

在采访过程中，诚卿和徐牧都说，导盲场景是在仔细遴选后确定的。一方面是作为公益项目，填补导盲服务的巨大空缺、满足视障者的强烈刚需。

中国有 1700 万视障群体，而导盲犬仅有约 400 只，同时导盲犬训练周期长，成本高，也会受生物本能和环境干扰——它们是视障者的好帮手，但可能还不是最理想的答案。而高德途途，不仅符合专业导盲犬的极高标准，还没有情绪波动、不会疲劳生病、服役周期长且能随着算法迭代持续进化。

另一方面，如前文中所提到，导盲可能是当下具身智能最有挑战的切入点。高德选择了相对务实的做法。当行业还在反复争论什么才是最优先的产品形态（四足、轮式、人形……）时，先找到了导这个具体场景，纵深探索。

四足机器人是不是终极答案？可能对于高德来说并不重要。ABot 技术栈将会适配各种机器人产品形态，只是对于导盲来说，四足已经是一个足够合适的载体：稳定成熟，能够承载导盲和开放环境导航，所要求的一整套能力验证。

途途并非又一款具身玩具。它更像高德首次尝试将过去系统性的积累，完整交付给一具具体的 “身体”。

为 “人” 导航的智能沉淀，也正成为引导 “机器人” 走进现实世界的操作系统。

除了作为唱歌跳舞、情绪消费的娱乐产品外，机器人或许真的可以进一步融入现实世界，改善人们的生活，哪怕从局部微小的一点开始。

题图来源：《银翼杀手》

- FIN -

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。