深度|具身智能卡在数据层:一个被忽视的中间战场,谁在填补最后一块拼图?


一、 具身数据问题不再是“单选题”
2025 年前后,具身智能非共识争议愈演愈烈,针对“到底该用什么样的数据”这一命题,仿真合成、遥操示教、真机部署回流、互联网视频与第一人称人类行为数据等不同流派各执一词:有人强调规模,有人强调真实,还有人试图从人类行为中提取先验。
然而,随着新一代基础模型(如 Gen 1)的逐步演进与落地需求的倒逼,数据层的核心矛盾正在发生质变。
其中一个重要的变化就是,数据路线的新共识开始浮现:行业开始意识到,具身数据问题不再是之前争执不下的“单选题”,而是需要依靠多源数据组合的整套系统工程实现,是一项“多选题”。
智域基石 CEO 杨哲轩告诉 ZP :“目前,数据训练已经越来越像‘大模型配方’问题,而不是单一数据来源问题,不可能只靠一种数据吃遍天下。”在他看来: “未来最有效的配方,是用互联网视频学广义语义和任务先验;用第一人称数据学执行过程的时序交互信息;用遥操作数据提供高质量动作示教;用仿真数据扩展任务覆盖与扰动分布;用真机部署的回流数据完成最终校准与闭环。”在这种范式下,不同来源的数据不再是替代关系,而是互补的组件。

智域基石CEO杨哲轩
路线之外,另一个更深刻的变化则来自现实世界的约束。眼下,当具身智能开始走出实验室,进入工厂与真实场景,一个更严苛的约束开始显现:物理世界不接受“幻觉”,因为机器幻觉在现实场景中往往意味着失败、成本甚至安全风险。
这种现实条件下, 行业的追求开始从“数据可得性”转向“数据有效性”。杨哲轩认为,“早期阶段,数据匮乏,所以行业拼的是数据可得性;下一阶段,拼的是数据的信息密度、可迁移性和闭环价值。因为,在模型基础能力跨过阈值后,边际价值最高的不再是成千上万次的重复样本,而是那些能真正改变策略边界的失败样本与跨场景迁移样本。”
也正是在这一演进过程中,一个新的问题浮出水面:当具身数据已经成为一个多源异构、强依赖组合与调度的系统工程时,行业真正稀缺的,究竟是什么?
答案已经不再是单一的数据供给能力,而是一种更高阶的基础设施能力——既能够理解不同数据类型的结构与价值,又能够将其转化为模型可直接调用的标准化能力输出,同时还具备对真实场景的深刻理解。
在既有产业结构中,这一能力恰恰处于一个“中间地带”,但目前鲜少公司布局,尚属空白:一端是擅长采集与标注的数据公司,解决的是“数据有没有”的问题;另一端是快速迭代的模型公司,关注的是“能不能用”。但在两者之间,如何将多源异构的数据进行工程化,并最终转化为模型可直接调用的一套标准化能力,仍然缺乏一套成熟的方法论与工程体系。
这一空白,正在演化为具身智能时代新的基础设施机会。大机会之下,已经有公司开始进行前瞻性布局。创立于 2025 年的智域基石,正是其中之一。与传统数据公司不同,它不仅布局了多源异构的数据,也在试图构建一套能够将复杂数据转化为标准化能力输出的系统。近期,智域基石完成数千万人民币融资,穹彻智能、灵初智能、浙江人形机器人创新中心、智平方、小苗朗程等五家公司共同押注,其中四家为具身智能公司,这种集体选择释放出一个明确信号:在具身智能走向规模化落地的节点,一个能够整合数据“配方”的基础设施,正在成为行业刚需。
02 战略布局:从机器人到人类数据,补上关键一环
一个前提是,不断演进的基础模型本身,正在重新定义“数据应该长什么样”。
随着以 Gen-1 为代表的原生具身模型出现,传统“感知预训练 + 动作微调”的两阶段范式,正逐渐向更一体化的学习方式演进。模型不再先理解世界、再学习动作,而是一开始就把连续的物理状态变化,当作内部表征的一部分来建模。在这样的框架下,数据不再只是离散的图像、文本或动作轨迹,而是一个持续演化的物理过程。
新的数据需求因此而生:模型学习的对象不再仅仅是一段干巴巴的动作轨迹,而是人类如何感知环境、如何做出判断、并最终与世界交互的全过程。这意味着,未来的具身数据必须是异构的、一体化的,且必须包含物理世界的因果逻辑。
在这一背景下,以第一人称视角(Ego-Centric)为核心的数据体系,开始显现出独特价值:它不仅记录了动作结果,更天然保留了操作过程中空间关系、时序逻辑以及物体的物理属性等关键信息。
也正因此,智域基石从真机数据生产,全面拓展至 Ego-Centric(第一人称视角)领域。智域基石 CEO 杨哲轩认为,这种拓展并不是简单地“增加一种数据类型”,而是补上具身智能数据体系中长期缺失的一层关键结构。
杨哲轩的判断是:第一人称视角是连接“人类技能表达”和“机器人可学习表示”之间的重要桥梁。
从价值上看,第一人称数据最核心的优势在于贴近操作本身。对机器人而言,关键不只是“看见”,而是“如何接触、如何展开动作、如何连续完成任务”。这类信息在第一人称视角中保留最完整,也因此在动作理解与任务建模上更具优势。同时,第一人称数据在规模化上具备更现实的优势——更易获取、可覆盖长尾任务,相比之下真机数据成本极高;二在能力层面,第一人称数据天然适合建模长程任务,能够更自然地进行任务分解、意图识别、关键步骤定位乃至失败前兆识别,这些能力,恰恰是具身智能走向复杂任务所必须具备的。
更重要的是第一人称视角数据天然有利于跨本体的能力迁移,它天然包含了与本体解耦的中间表示,能先让模型理解:任务目标、有效交互和关键视觉线索,然后再去处理“怎么把人的动作转成机器动作”、“用多大力”这些执行层面的细节。也因此,它特别适合承载两类基础能力:一是大规模语义预训练,二是操作先验的学习。
“具身智能不太可能长期依赖高成本的精细标注数据,必然需要吸收大量“弱标注但高覆盖”的数据源,而第一人称数据,正是其中最具潜力的一类。”杨哲轩认为。
在这样的判断下,智域基石的一个关键动作,是自研 Ego-Centric 采集设备。但这一选择,本质上并非简单的硬件延伸,而是数据战略的必然结果。在杨哲轩看来,物理世界不接受幻觉。为了消除模型训练中可能产生的逻辑断层,必须在采集阶段就完成对人类行为的全量数字化:“即记录视觉、听觉、触觉等多模态信息 ;覆盖本体、工具、物体、环境的完整交互 ;确保镜头时序和物理逻辑的绝对真实,从而消除模型在训练中可能产生的幻觉。”他进一步解释。
03 不押注单一模型路径:具身智能时代的数据策略核心是“可复用”
当行业开始具备多源数据采集能力,一个更现实的问题浮现出来:不同数据采集完了,然后呢?
不能逃避的现实情况是,如果数据无法跨模型复用,那么每一次算法演进,都意味着“从头再来”。当前具身智能的模型路线尚未收敛,押注单一路径风险巨大。所以,当下数据策略的核心,不是押注某一种模型路径,而是“可复用”,确保数据在未来仍具备可用性与可转换性。
基于这一判断,智域基石一方面布局“尽可能全面”的原始数据采集,另一方面则通过一套“数据编译”能力,将原始数据加工为适配不同模型范式的训练输入。杨哲轩向 ZP 提到:“无论未来的算法如何变迁,都可以通过其自建的数据编译能力将这些原始数据加工成符合新模型需求的数据,从而实现数据资产的保值。”
什么是“数据编译”(Data Compilation)?它不是简单的数据清洗,而是将“原始数据”转化为“模型可用能力”的中间层系统,将从原始采集到模型训练输入的整个过程标准化。
我们可以用个比喻来理解这套分工:如果把第一人称视角和真机遥操示教数据比作地下开采的原油,那么“数据编译”就是炼油厂。它负责将混乱的原始信号加工处理,转化为机器人可以理解、执行并泛化的“特征燃料”,标准化了从油田到发动机的全流程。其作用类似于计算机系统中的“中间件”:屏蔽底层差异,对上提供统一接口。面对前端采集设备不统一、后端模型持续演进的现实,它通过中间层将“混乱数据”转化为“标准输入”,让数据从一次性消耗品,变为可反复加工的长期资产。
这是一次对数据深度的加工过程,它需要将几何与传感信息,进一步提升为语义与行动层的表达:例如,将空间结构转化为任务意图与物体关系,让模型理解“为什么这样做”;或通过多模态推理,从视觉与关节信息中补全接触等缺失信息,使数据产生超出采集本身的价值。
因此,数据编译不仅是算法问题,更是极复杂的大数据工程体系。智域基石构建了一套涵盖质检、底座对齐、编译、检索、交付五个环节的完整链路,拥有极高的工程化与成本壁垒。通过云原生分布式架构,它将复杂的编译任务拆解为细粒度的计算单元,从而实现对传统模式的成本降维打击——云资源成本降低至传统方式的 1/3 甚至更低。同时,其全量自动化质检改变了行业普遍的“人工抽检”模式。在面对“万小时级别”的数据处理需求时,这种工程效率的差异,直接决定了商业化落地的关键节奏。
04 先在“脏活累活”场景中建立壁垒
一个更现实的判断正在逐渐清晰:具身智能不会“一步到位”实现通用的愿景,而是像大模型一样,呈现出分阶段演进的路径。
杨哲轩认为,“具身智能真正的 GPT-4 时刻,不会只由模型参数决定,而会由模型能力 + 数据飞轮 + 安全闭环 + 商业 ROI 共同决定。至少需要满足四个条件——覆盖多个高频真实任务;仅需少量数据即可实现跨场景快速适配;面对抗扰动有稳定的恢复能力;成本效率和可靠性上优于以规则为主的传统系统。”
基于这一标准,他对落地节奏的判断是:在半结构化 B 端场景中,局部“GPT-4 时刻”将率先到来,时间窗口约为未来 18-36 个月。“典型场景包括:仓储拣选、简单装配、标准化上下料、餐饮后厨的部分操作、连锁门店的标准化流程任务。这一阶段解决的不是“通用智能”,而是在可控环境中,让机器人稳定、可重复地完成具体工作。”
所以,智域基石将落点聚焦于 B 端与工业场景:瞄准这些“脏活累活”中建立工程与场景壁垒。同时,其早期客户主要来自股东背景中的模型公司与本体厂商,一方面保证了冷启动阶段的稳定需求与现金流,另一方面也使其数据体系能够从一开始就紧贴真实训练与部署需求。据杨哲轩透露,目前公司已有接近亿元人民币的订单。
长远来看,中国市场正在形成一条不同于全球其他地区的具身智能路径:更关注“落地”,而非单纯追求“技术的最先进”。中国本土制造与仓储场景的高度集中、企业对私有化部署的强需求、以及数据合规与流动受限所带来的清晰边界,共同塑造了一个独特的竞争环境:关键不再是模型能力本身,而是谁能持续将数据转化为可复用的能力。正因如此,数据编译与数据工程能力,将成为决定落地效率与规模化能力的关键分水岭。
其真正的壁垒,不在于拿到了多少原始数据,而在于是否具备完整的数据炼化能力,把非标数据世界,变成可训练、可评测、可交付的工业体系。
也因此,这一赛道的真正门槛绝非某个孤立的技术亮点,而是多种能力的深度耦合。它要求团队:既要理解真实场景,又要洞察模型演进路径;既要具备大规模数据工程能力,又要满足合规与私有化交付要求,同时还需要工业级的执行能力。本质上,这不是一个单纯的“技术问题”,而是一项复杂的系统工程。
在这个意义上,智域基石所试图构建的,不只是数据能力本身,而是一种让具身智能真正走向产业化的底层系统。






