对话简智朱雁鸣:不卷模型卷基建,具身智能核心是读懂人的数据

作者丨高景辉
编辑丨马晓宁

2026年的具身智能赛道,热闹非凡。各家机器人厂商都在秀Demo、拼算力,试图用海量数据教会机器人叠衣服、冲咖啡。但一个尴尬的现实是:我们似乎从未真正教会机器人“看懂”这个世界。
绝大多数机器人仍在模仿人类动作的表层轨迹,却不理解为什么拧不开瓶盖时要先擦擦手。这种认知缺失,像极了自动驾驶早期依赖高精地图的窘境——能应付固定场景,却处理不了充满不确定性的真实生活。
而阻碍具身智能真正进入生活的瓶颈,是数据。没有足够好用的数据,机器人就无法学习和训练,从而无法理解真实的世界。
于是,在行业集体陷入“做模型”的宏大叙事时,简智机器人选择去啃一根更小众、也更苦的骨头:具身数据基建。
“行业里不缺做模型的公司,缺的是数据,特别是从人类第一视角出发、包含思考与触觉反馈的闭环数据。”在简智机器人联创朱雁鸣看来,单纯靠模仿学习在物理AI里跑不通。如果给机器人喂的是缺乏因果链的“表演数据”,训练出的模型往往只是机械的复读机,一旦遭遇长程任务或意外干扰,就会瞬间崩溃。
简智所做的,是一套关于“人”的全维度数据产品。他们自研从头、到手、到全身的高精度数据获取产品,深入家庭和商超做众包,去捕捉人类不经意的力反馈、多模态感知,甚至并反向分析出其行为背后的思维链。
在具身智能的底层逻辑里,数据不仅是燃料,更是构建认知的“第一性原理”。当大多数玩家热衷于“造车”时,简智为什么笃定要去建“电池厂”?未来具身智能的核心壁垒,究竟在算法还是在于那套关乎人类行为的“说明书”?
答案,远比我们想象的更硬核。

01
每一条技术路线,都有一个“CTO”
AI科技评论:先从简智的创立开始吧,当时创立公司的初心是什么?
朱雁鸣:我们最初对具身智能行业有一种朦胧的热情。智驾本身也是一种具身智能,但更广义的具身智能可以做人类能做的所有事情,是对生产力的底层变革。所以我们在具身赛道中深入研究的时候,比较想去创造一些差异化的价值,这也是我们选择细分方向时候的一条准则。
我们在2025年7月成立时,更多在复盘整个具身智能产业中有哪些空白、不足,所以不想盲目追热点。我们细想下来行业里不缺做模型的公司,缺的是数据基建,特别是无本体或其他范式下的数据。
当时行业还没有大规模崇尚 UMI 或 EGO 概念,更多在通过运动控制快速出demo,或是用 VLA 的方式训练模型。但我们相信,scale up和数据驱动是智能通往终局的关键路径。而对于物理AI他所需要的数据也与之前不同,文本的世界是结构化的,但我们的生活场景每时每刻都在变化,是非结构化的世界,在此之上具身需要的是逐步替代人的能力。我们需要的是从 Human Data(人类行为数据)入手,构建一套从行动到思考再到反馈的闭环数据产品和平台。
AI科技评论:简智核心团队来自智驾领域,这一背景带来了什么优势?
朱雁鸣:主要是认知层面的优势。泛 AI 领域里,真正实现落地的物理 AI 产品就是自动驾驶,其他 AI 落地大多停留在对话、图像生成层面。自动驾驶是真实在路上跑、服务于人,且在技术上实现了端到端、数据飞轮架构落地,这让我们对数据的 infra 有了深刻认知。
第一,模型算法迭代所需的数据,一定是伴随迭代的人类真实数据。今天具身领域,最需要被突破的方向是的预训练,让模型具备通识、泛化且跨本体的长任务执行能力,并低成本做广泛的落地。
在这个过程中,除了量大之外,更多是让数据“坐标系”与“人理解世界”对齐,这样才能更好的从行为到认知形成闭环。
而且在这个过程中,很多corner case非常有价值,比如人在操作时候收到干扰失败,又怎么去弥补的过程,这些是商业化的必备能力,而这些数据必须通过长时间的真实世界积累,而非人为枚举。
第二,是对数据闭环链路与商业闭环链路结合的思考。做自动驾驶时,数据成本非常低,因为每一台上路行驶的量产车,都在持续生产数据。但具身智能完全不同,它的数据无法天然获取,视频只是最简单的形式,要给模型做长期学习训练,触觉模态、人类思考链路等信息,无法单纯通过安装摄像头获取。这给了我们底层思考:要构建可行的数据链路,必须往更深处发力。智驾的数据生产基于已有的车辆,而具身数据的核心基础,是如何拥有能让人类在自然生活中生产全维度数据的设备。
第三,是长链路、高并发数据处理的经验。做自动驾驶时,每天回流的数据级别接近几百 T,大规模数据和行为需要长链路的清洗流程。这给我们的核心经验是,数据交付除了做好硬件,更重要的是应对长链条、大规模交付的能力,这需要在最开始就对硬件、数据链条、数据加工处理方式做完整的结构化设计。
AI科技评论:简智现在团队大概有多少人?研发占比多少?
朱雁鸣:规模在140人左右,研发人员占比超过85%。
AI科技评论:具身数据是一个交叉领域,对此简智在组织上有什么调整?
朱雁鸣:具身智能需要专业领域人才,更需要领域融合后的综合性创新,数据业务也是如此。所以我们结合各技术领域优势,每个领域预研出一条主线,这条线下的每个人都是CTO。
例如在数采设备上,涉及摄像头、触觉、IMU、磁编码器等,我们有类似CTO的角色做垂线预研,横向则由技术委员会组成,从生产加工到模态再到自动化链条,通过模型驱动拼出完整方案。成熟行业里,一个人很难全栈把所有事情规划清楚,当下的具身数据领域,更需要每个领域都有创新,实现 1+1>2 的效果。
AI科技评论:简智现在招人一般会招哪些人?
朱雁鸣:我们第一优先级是模型方向的人才,但我们要的模型人才,不是做具身动作输出模型的人才,而是做 data 仿真模型的人才。核心工作是将采集到的人类行为数据,通过模型加工还原成接近人类整体感受的数据格式,这件事难度很高。
我们定义的 human data,核心要素包括人的第一视角图像、全身关节运动、手上的触觉,以及每个动作中的力反馈,这些维度可以完整描述人类绝大多数行为。比如拿起一杯水,包含看到水、接触水、拿起时胳膊感受到的力反馈、拧开瓶盖的全流程。
这里的核心难点是,每个模态由不同硬件收集,各硬件有不同的特征、频率,以及硬件本身特性导致的信息残缺,如何把它们还原成同一时间轴、同一时空坐标系下的完整数据。单纯靠人工、粗糙的时间对齐,都会影响数据质量和精度。
因此我们尝试用数据基础大模型(data foundation model)解决这个问题:把多模态输入注入模型,像训练自动驾驶端到端模型一样,通过真值系统评测输出与真实世界的匹配度,再根据 gap 反向优化模型能力。我们是行业内第一家不用大模型做具身动作模型,而是用模型解决数据问题的企业。
第二类核心人才,是底层硬件能力相关的人才,包括光学、嵌入式软件、PCB 板设计,以及自研触觉方案相关的底层研发人才。我们希望通过底层原理性创新,提升采集过程中的模态精度。上层数据和模型只能做交叉验证、基于已采集信息提升精度,而数据的底层对错,需要硬件质量来保证,这其中有很多围绕人类感受的底层原理创新需要做。
AI科技评论:你们有数采工厂吗?需要专人管理吗?
朱雁鸣:我们采用众包模式,数据来自真实家庭和真实场景,没有用数采工厂方式,这是我们和其他企业不一样的地方,也是我们认为面向终局,大规模、高效采集真实数据的最终路径。
02
人的行为就是真值,
人能做出来的动作,机器人就应该能实现
AI科技评论:具身数据赛道有细分方向,有的只卖数据,有的也卖设备,简智属于哪种?
朱雁鸣:我们本质上是一家数据解决方案公司,但会根据不同场景提供不同方案。很多面向 C 端的模型公司,落地场景偏生活化,这类数据可以公开获取,比如家庭机器人需要的各类家庭场景数据,我们可以通过众包实现,直接给这类客户提供数据方案。
另一类客户的场景是封闭、自有场景,比如工厂产线、封闭实验室,这类数据无法公开获取,数据所有权本质上在场景应用方手里。针对这类客户,我们会提供硬件设备方案和最高效的本地化部署闭环,让他们在自有场景中完成数据采集和生产。
AI科技评论:有人认为设备是具身数据公司的核心壁垒,卖了设备别人就不买数据了,你们怎么看?
朱雁鸣:首先,数据和设备都很重要。设备是基建中的最底层,它决定了数据的模态数量、底层模态质量,设备的便捷性、成本,也决定了数据采集的规模化能力,但我不认为设备就是全部。
数据最终是服务于模型的,模型需要的不是单纯的视频,也不是多模态数据的简单打包,绝大多数核心工作,都发生在采集后的数据加工处理环节。现在绝大多数模型公司,哪怕是做预训练,都极度追求数据质量,数据质量会从底层影响模型的效果、精度、以及对因果关系的认知。
比如如果发生在餐馆,人会考虑是不是避让其他人的移动、绕开一些饭菜,如果只有动作表层的标注也是不够的,背后都有完整的因果驱动,我们需要给模型提供串联好全模态、稠密的COT过程,才能给模型提供有效的参考,让它更容易学习。
另一个核心原因是规模化。大批量设备采集的大批量数据,如何快速、高效、低成本地转化成可训练的 Token,才是核心难题,生产 100 台设备和 100 万台设备,是完全不同的难度。
AI科技评论:刚刚提到家庭众包,具体是一种怎样的合作方式?
朱雁鸣:我们在众包模式上的运作很像 C 端公司。我们自己做了一款 APP,把设备给到每个家庭,用户通过 APP 了解采集任务,用我们的设备完成正常的家务动作即可,不需要对用户的操作做额外的教育和约束,用户的自然操作对模型来说反而更有价值,模型需要学习多样化的人类行为,才能补充场景盲点,因此行为上传后我们通过云端来识别、标注。
另外我们的设备在人机工程上也有明显优势,非常轻便,使用效率和人类正常干活的效率基本一致。用户完成操作后,通过 APP 上传采集的数据,我们基于数据回收情况给用户结算,整个流程自然且高效。
AI科技评论:有没有工业或商业场景的众包?
朱雁鸣:有的。目前50%是家庭,30%是商超和工厂,10%是物流,剩下的10%是医疗、实验室等分散场景。
AI科技评论:场景方会有隐私顾虑吗?
朱雁鸣:这个问题我们有完善的解决方案。首先,所有数据的隐私处理,都有一套标准化流程,包括地点、人脸、对方知识产权相关的信息,都会在数据售卖前完成脱敏处理,这是数据公司的基础义务。
第二,我们和每一个场景方、采集方合作时,都会在合作协议和费用说明里,明确标注双方的权利归属,我们获取的不是用户的个人信息,而是其在场景下的行为和操作数据,本身不会涉及过多个人隐私数据。
AI科技评论:众包没有标准化流程,数据质量会不会参差不齐,给后期处理带来压力?
朱雁鸣:因为我们崇尚人的行为其实都是“真值”,毕竟无论什么情况,人都是可以克服困难完成任务。因此关键在于真值上传后,是否有一套自动化的方式完成数据识别与处理。
我们的自动化识别,核心是把人的行为和动作做对齐,进行细致化的标注、分类,而非判定人的行为对错。还有质检环节,核心是对人的操作行为做分类,而非丢弃数据。我们会区分高速高效完成的动作、有干扰场景下完成的动作、失败后完成纠错的动作,同时对数据做颗粒度极细的原子化处理,以适配模型不同训练阶段的需求。
AI科技评论:你们的海外收入占比挺高的,你们在出海过程中有遇到哪些阻碍?
朱雁鸣:海外模型公司对数据的要求非常高,目前海外模型公司在模型训练上的进展整体快于国内,他们对触觉模态、训练数据的体量规模、多样性的要求非常严格,同时要求我们的迭代速度能匹配他们模型的进展。
AI科技评论:随着数据量增加,存储和算力会有压力吗?
朱雁鸣:肯定会有,但这件事我们很早就有预判,因为数据飞轮的重要因素就是“数据流转效率”,对此我们从源头做了三层解决方案:
第一,端侧的数据压缩与质检。我们的每一台设备,在采集端就具备数据质检能力,能根据人的行为、场景的特殊情况,自动丢弃无效数据,避免无效数据占用传输链路和存储空间。
第二,行业领先的无损压缩能力。我们在压缩比例和对训练效果的影响上,做到了行业综合最优。传统压缩方案很难平衡压缩比和有效信息损失,我们可以把原生数据压缩到原来的 2%,且压缩后的数据解包用于模型训练,训练的指标和效率基本不受任何影响。
第三,自动化的数据处理速度。存储成本主要来自两部分,一是采集后的原生数据等待加工的暂存成本,二是加工后的成品数据存储成本。最容易被忽略的,是原生数据等待加工的排队存储成本,这也是我们一定要用模型做自动化处理的核心原因。人工处理是线性增长的,只能靠加人提升效率;而模型可以实现指数级的效率提升,让存储成本大多只发生在成品数据上,而非中间过程。
03
现在行业对 EGO centric 的理解,
大多还停留在浅层的第一视角图像
AI科技评论:你们对不同数据路线,比如仿真、互联网视频、遥操怎么看?
朱雁鸣:我个人认为,不同数据路线,要结合模型的训练阶段来看,它们有不同的使命和目标,但高精度、质量、完整且泛化是通用性的要求。
首先,如果想构建具备通用能力的具身基座模型,让模型学到底层的物理环境认知能力,那么对标对象一定是人,核心是人的 EGO(自我中心)视角出发的认知。第三视角的认知,无法形成行为因果的闭环。
比如打开冰箱拿可乐,人打开冰箱看不到可乐,会先拿走挡住可乐的物品,再拿可乐。从第三视角,无法覆盖这些行为的完整逻辑,也无法闭环人执行这些动作的因果链。因此,对于基座模型的预训练阶段,最重要的就是大量第一视角下,人类的闭环行为和逻辑数据。
仿真合成数据的价值会随着两个因素快速弱化。一是模型要解决的问题的复杂程度。合成数据最难的不是物理特性的仿真,比如丝巾、水流、头发丝的仿真,而是无法仿真真实的交互。比如美国餐馆端菜的场景,核心难点不是端菜动作,而是狭窄过道里避让客人,客人抬胳膊的瞬间做出避让动作,这些来自真实生活的交互场景,完全无法通过仿真模拟。随着问题交互复杂度的上升,仿真数据的价值会快速下降。
二是长程任务的需求。现在行业里很多具身任务都是短程的,比如叠衣服 2 分钟就能完成,但真实的家务任务,比如拖地需要半小时,中间还要去清洗拖布,这个过程中需要持续的思考和任务拆解,长程任务的逻辑,仿真也很难模拟。因此,仿真数据只在解决拿、放等基础动作问题时有价值,越到真实场景的复杂问题,价值越弱。
另外,仿真的幻觉是非常严重的问题。物理 AI 对幻觉的容忍度极低,这和语言模型完全不同。就像自动驾驶对幻觉零容忍,一旦出问题就是人命关天;机器人商业化落地也是同理,用户不会接受机器人有概率损坏家中财物。仿真的因果本身不真实,会产生大量幻觉,让模型误以为错误的逻辑是正确的,这也是核心短板。
真机遥操数据在我看来更适合用在评测和后训练过程中。模型训练的完整流程,应该是通过人类数据完成预训练,再通过精选的人类专家数据完成中间训练,最后基于评测结果做强化学习和后训练。真机遥操就发生在最后这个环节,基于模型前两个阶段的学习,在每个任务中的表现,找到需要强化的部分,反向驱动模型优化。与其说遥操是训练数据,不如说它是用来发现模型 bug、反向优化的评测数据。
AI科技评论:你们现在用最多的是EGO数据吗?
朱雁鸣:是的。Ego我们认为是最容易scale,且符合第一性原理的,因为天然和人的认知对齐。
AI科技评论:EGO 今年才火起来,但是你们去年 10 月就开始往这个方向做产品了,为什么会这么早进入EGO赛道?
朱雁鸣:一方面来自智驾经验。智驾已进入深水区,单纯增加数据量无法指数级提升指标,应用和训练场景极度泛化。因此智驾的训练核心已经变成了强化模型的认知能力,也就是思维链(COT)能力。
具身智能也一样。遥操本质上就是最基础的模仿学习,行业里很多 demo,都是在相同场景下录几百小时的人类数据,回灌给模型,让模型以接近回放的方式复现操作。但模型学到的只是表层的轨迹,没有真正理解动作背后的深层逻辑,比如叠衣服为什么要先拿一角,衣服一角掉了要不要捡起来。
这些深层逻辑,只有 EGO centric 的数据能提供,非 EGO 视角的训练,缺少了对模型深层认知的监督,只能监督轨迹和图像,无法监督模型面对问题时的解决方案,也无法获取人类行为背后的思考逻辑。
AI科技评论:为什么行业之前没有大规模用EGO Centric?
朱雁鸣:因为去年大家都在用 VLA。VLA 的 Backbone 是语言模型,它构建的因果是面向文本输出的,没有空间、重力、摩擦力,也没有长链条决策。现在大家发现 VLA 满足不了物理世界要求,所以开始回归到导入大量人做事的方式进行训练。
AI科技评论:大家都在开发自己的EGO设备,会不会重复造轮子?
朱雁鸣:这涉及到EGO centric 的数据核心要求。现在行业对 EGO centric 的理解,大多还停留在浅层的第一视角图像,很多人头上戴个 iPhone、挂个 GoPro 就开始采集数据,但这只是第一视角的视频,只靠视频无法闭环人的行为和感知,存在严重的信息缺失。
第一,真正的 EGO 数据,应该是多模态的,而不只是视频这一个单一模态。人完成操作,不是只靠视觉反馈,还有手的触觉、力反馈等感知信息,这些模态信息,无法通过单一的摄像设备完成采集。长期来看,具身模型一定需要理解触觉,才能和人类的行为对齐,单一视觉的 EGO 数据,无法满足模型的长期训练需求。
第二,多模态数据对质量和精度有极高的要求。数据精度越高,AI 产生幻觉的概率就越低。因此,EGO 数据对关节精度、感知精度有天然的高要求,真正有价值、能被模型大批量学习的,是多模态、高精度的 human data,而非低质量的第一视角视频。低质量数据训练出来的模型,需要极高的二次调优成本,就像 OpenAI 早期用互联网语料训练,最后发现大量问题,只能雇佣大量人员生成高质量的人类对话数据重新训练。
AI科技评论:那能不能用你们的手套,配合我自己的手机摄像头采集数据?
朱雁鸣:普通消费级设备无法满足 EGO 数据的采集需求,这里有几个底层的技术要求。
第一,视角高精度采集,对视野有硬性要求。目前行业里有激光雷达、红外、纯视觉三条技术路线,纯视觉是最合理的,因为它的鲁棒性最高,也具备规模化能力,激光雷达受硬件限制无法大规模铺开。而纯视觉方案,对摄像头的数量和视野有明确要求。
人眼的视野是 150 度,操作时手很容易超出这个视野范围,机器人无法像人一样转头、转动眼球,因此采集设备的视野需要远超 150 度。我们的 EGO 采集设备做到了 270 度视野,可以完整覆盖人手的所有动作范围,保证因果链的完整。
第二,精度需要多摄像头差分来实现。就像人的双眼判断距离更准确,多摄像头的相位差,可以大幅提升定位精度。我们实测,单摄像头的指尖精度上限最多 2 厘米,双摄像头可以降到 1.2 毫米,三摄像头可以降到 0.8 毫米。因此,EGO 采集设备需要定制化的多摄像头方案,传统的单摄像头手机,无法满足精度要求。
AI科技评论:所以“原装”的设备才是最优的解决方案?
朱雁鸣:对,因为设备是反推数据需求来设计的,如果真的这么简单,我们也不会投入这么多成本去做自研。
AI科技评论:头戴设备和手部设备的协同,会不会难度很高?
朱雁鸣:难度非常高。首先是通讯与时间对齐的要求,手部设备的图像、触觉采集有固定频率,头戴设备的视频流也有单独的采集频率,需要把二者的时间精度对齐到 1 毫秒。如果做不到,就会出现手已经抓到物体,眼睛看到的还是上一帧画面的延迟问题,直接影响数据的有效性。
现在我们做到了毫米级定位。我们最终要产出人在绝对空间下的绝对行为和轨迹,需要先实现头和手的高精度相对定位,再以头为中枢,实现头与环境的相对定位,才能构建起手-头-环境的完整定位体系。头和手的相对定位,没有直接的测量方式,只能通过多相机视觉实现,这对相机路数、云端数据处理能力都有极高的要求。同时,在野外、大型商超等大空间场景中,人在空间里的绝对定位也有很高难度,需要多传感器组合方案才能保证数据精度。
AI科技评论:最早你们用的是“夹爪”(UMI),现在变成了手套,夹爪和手套是进化关系还是并行关系?
朱雁鸣:是并行关系,本质上是不同应用场景的适配。很多场景下,两根手指的夹爪就足够了,比如工业场景、基础物流场景,只需要捡箱子、翻动物品,两指就能满足需求;五指结构则是面向更灵巧的操作场景。
如果从层级关系来看,五指是比两指更上层的解决方案,更具备长期价值。如果模型基于五指数据学会了人类的基础认知和能力,未来即便应用本体是两指、三指结构,也不需要很高的迁移成本,这就是行业常说的跨本体迁移问题。跨本体迁移的底层,是模型的认知深度,以及是否形成了完整的因果闭环,而非依赖固定的硬件形式。
AI科技评论:那现在 UMI 夹爪在你们的产品体系里,定位是什么?
朱雁鸣:UMI 现在的定位,主要服务两类需求。一类是适配特定的应用场景,比如工业场景中,只需要两指就能完成操作,甚至需要粗壮的两指完成重物、大零件的操作,五指反而会成为负担,这类场景会用 UMI 方案;第二类是适配客户的产品需求,有些客户现阶段落地的产品就是两指类本体,反向需要两指类的数据满足训练要求,我们也会提供对应的 UMI 方案。
另外,传统 UMI 的构型,需要人操作设备完成动作,行为不自然,采集效率低,还会因为操作熟练度产生脏数据。我们现在做了新款的 Fingers 产品,构型更接近人的两根手指,相当于从五指产品中去掉三根手指,只保留关键的两根,是仿生构型,在采集效率、行为自然度上都有大幅提升。
AI科技评论:你们的客户对高质量数据的要求有哪些?
朱雁鸣:要求大概有四点。
一是极高的多样性要求,这一点可能反常识,即便客户只聚焦一个应用场景,在模型训练阶段,也需要多样的行为、空间理解能力,来提升模型的鲁棒性和泛化能力。
二是完整的模态,模型训练本质上是监督学习的过程,监督的关键,就是模态与结果的对齐是否完整,因此所有和动作结果相关的模态,都必须完整覆盖,这是核心要求。
三是极致的精度,数据精度从底层决定了模型的幻觉概率,高精度的原始数据,是模型训练效果的基础保障。
四是完整的思维链,这一点目前行业还没有广泛讨论,但它是机器人实现长程任务的关键数据要求。比如拖地这个长程任务,拖过的地方不需要再拖、什么程度需要清洗拖布,都没有固定的标准,人类执行时的思考和推理过程,不会边做边说,在现有数据中是天然缺失的。
但这些推理过程,是让模型理解动作背后逻辑的核心。如果只看 100 个人拖地的动作,每个人的行为是发散的,模型无法理解背后的逻辑,只能给出平均值,无法适配真实场景。因此,包含完整思维链的数据,是高质量数据的核心特征。
04
机器人厂商不会规模化数采,
就像汽车厂商不会自己建电池厂
AI科技评论:去年很多公司喊出“百万小时数据”目标,你觉得实现起来难不难?
朱雁鸣:非常难,因为对我们来说,这百万背后,不是单纯的堆量,而是高质量的数据集合。首先从人力角度来看,一个人一天有效产出数据的时间大概只有 5-6 小时,受体力等因素限制,无法满负荷产出。百万小时至少需要 20 万人天,即便有 2000 人的运营团队,也需要持续运营 3 个月以上,才能实现这个目标,而这只是人力层面的难度。
更关键的是,这背后需要配套海量的采集设备、极强的模型自动化处理能力、通畅的数据链路。整个流程就像漏斗,任何一个环节出问题,都会产生层层折损,最终能转化的有效数据比例会大幅降低。
从我们的角度来看,要实现这个目标,有三个核心门槛:第一,是否有能满足高质量数据要求的设备;第二,设备能否实现众包规模化落地;第三,是否具备大规模数据的自动化链路处理能力。今年我们有信心产出超过500万以上的高质量数据,这也是我们体系化能力建设后的快速增长能力。
现在我们有信心、也已经和其中大部分企业建立长期合作。喊口号没有意义,关键要看是否真正落地了相关的设备、团队和体系化能力。
AI科技评论:有些做模型的公司,自己也在做数据,那做数据的公司,是不是也可以自己做模型?你们未来会不会切入模型赛道?
朱雁鸣:我们对模型始终保持敬畏。一个行业的发展分为三个阶段:学术阶段,核心是确定实现长期目标的技术范式;产业阶段,范式明确后,用工程化的方式加速落地;商业阶段,面向交付、成本、商业化指标优化。
从目前来看,具身智能行业,连学术阶段的问题都没有被完整解决,现在行业里的产品,很难在某一个专职事情上做到和人一样的水平。因此,我们现阶段的核心,还是服务好模型公司,帮他们训出更好的模型。
AI科技评论:如何看待GEN1?
朱雁鸣:至少从我的角度,我非常认可 Generalist,他们是一家非常纯粹的公司。他们一直坚持用 scaling law 的方式,提升具身智能的表现,这是他们的底层驱动。
回到 GEN1 的表现,我认为有三个核心亮点。第一,实现了同一模型的多任务执行能力。现在行业里很多公司的模型,本质上是狭义的专有模型,比如专门做叠衣服的模型,换个任务表现就会很差,但 G1 在多任务场景下的表现,已经得到了验证。
第二,模型从多样数据中,真正学到了人类的纠错能力。从他们发布的视频能看到,模型第一次执行任务失败后,能快速根据错误完成纠正;面对刻意的干扰,也能及时给出解决方案,这一点非常难得。
第三,已经开始探索长程任务的实现。他们已经在尝试 3-5 分钟完成一个完整的复杂任务,而非同一个动作重复十几次,这是行业里非常少有的探索,也贴合具身智能的真实落地需求。
AI科技评论: Generalist 训练用的数据,主要也是 EGO 数据吗?
朱雁鸣:他们现在主要还是用 UMI 夹爪,但也已经在探索ego方向,因为umi存在自己的上限,尤其是移动机器人场景,UMI 会更难适配。
AI科技评论:Generalist 与国内具身智能公司有哪些差异?
朱雁鸣:首先是理念上的差异。Generalist 与其说像一家公司,不如说更像一家科研机构,团队只有二十几个人,没有商业化目标,融资也不以商业化做核心诉求,非常纯粹,专注于通过底层创新迭代技术本身。而国内大多数做具身的公司,都背负着融资和商业化的压力,很难做到这种纯粹。
其次是勇气,现阶段人类数据做基座模型、大规模预训练是需要投入非常多资源,而且存在巨大不确定性的事情。Generalist 的底层创新,核心是没有复用任何开源模型,完全基于 UMI 的数据从零重训,这个过程非常漫长,需要消耗大量的算力和数据,后期的消耗只会更大。
AI科技评论:未来国内数据赛道的格局会是怎样的?
朱雁鸣:会是有头部也有分散的生态。因为第一这个市场的盘子足够大,没有任何一家公司能完全吃下。第二,数据面向商业化落地时,会有大量垂类需求,数据和算法是绑定的垂类关系,不可能有一家公司的一套方案,能完美适配所有场景,一定会有企业在细分垂类里做得更适配。
因此,最终会形成的格局是:有几家公司做成大的通用数据平台,而在细分垂类赛道里,依然有不同的玩家,是一个多元的市场状态。在通用场景下,行业会慢慢趋同,会出现方案、价格都有明显优势的头部供应商。
AI科技评论:整机厂商未来一定要买第三方数据吗?这种数据依赖是持续性的吗?
朱雁鸣:本质上这是产业链分工的问题,不存在某个技术壁垒让别人完全做不了,但随着行业成熟,产业链分工会越来越明确,各方的边界也会越来越清晰。
第一,数据全链条的复杂度,远超语言模型和自动驾驶时代。它需要单独的设备研发、单独的链路搭建、单独的模型和运营能力维护,而且数据的价值是长期的。机器人训练新模型,最值钱的不是它已经会的操作数据,而是它不会的、犯错的场景数据,这需要持续的、大规模的数据采集和处理能力。
第二,全链条的体系化能力,会形成效率和成本的壁垒。短期壁垒是谁能先搭建起完整的体系,提供模型公司需要的产品;长期来看,就是成本的竞争,体系越成熟、效率越高,规模化后的成本优势就越明显。
我经常用一个类比,数据对于机器人厂商,就像轮胎对于汽车厂。电池是每台车的必备部件,成本也不低,但现在没有一家汽车厂会自己建轮胎厂,核心原因就是专业的厂商,在成本、效率上都比自己做更高,从零到一自建反而得不偿失。
AI科技评论:数采行业的核心竞争力是什么?
朱雁鸣:数采行业的核心竞争力有三个核心维度:
第一,自动化能力。核心是数据公司能不能构建自己的飞轮:随着交付的数据越多,自动化能力越强,数据交付的效率越高、质量越好。这是具身时代对数据公司的核心要求,谁能先构建出以数据链路、模型驱动的自动化数据产线,谁就掌握了核心竞争力。
第二,硬件模态研发能力。现在大多数数采公司,都没有专注做硬件的底层研发,要么用开源方案,要么用消费级产品拼凑,这种拼凑出来的方案,产出的数据看似可用,但 3-5 个月后就会被证伪,无法支撑模型的长期训练。硬件模态的研发,还要兼顾低成本,只有确定了可规模化、低成本的模态方案,才能谈第三个核心竞争力。
第三,真正的规模化能力。自动化水平高、模态全、成本低,才能实现最好的规模化。规模化的核心,是构建敏捷的数据链条,实现成本的非线性增长。如果 10 万条数据的成本,只比 1 万条翻了一倍,而非 10 倍,才能不断提升业务的天花板,这才是可持续的商业模式。



起底智元机器人,谁在推动一个庞然大物向前

为什么它石陈亦伦踏入具身河流

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。F
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。F
