对话简智朱雁鸣：不卷模型卷基建，具身智能核心是读懂人的数据

发布时间：2026-05-09来源：AI科技评论

「自动化」是具身数据行业的第一竞争力。

作者丨高景辉

编辑丨马晓宁

2026年的具身智能赛道，热闹非凡。各家机器人厂商都在秀Demo、拼算力，试图用海量数据教会机器人叠衣服、冲咖啡。但一个尴尬的现实是：我们似乎从未真正教会机器人“看懂”这个世界。

绝大多数机器人仍在模仿人类动作的表层轨迹，却不理解为什么拧不开瓶盖时要先擦擦手。这种认知缺失，像极了自动驾驶早期依赖高精地图的窘境——能应付固定场景，却处理不了充满不确定性的真实生活。

而阻碍具身智能真正进入生活的瓶颈，是数据。没有足够好用的数据，机器人就无法学习和训练，从而无法理解真实的世界。

于是，在行业集体陷入“做模型”的宏大叙事时，简智机器人选择去啃一根更小众、也更苦的骨头：具身数据基建。

“行业里不缺做模型的公司，缺的是数据，特别是从人类第一视角出发、包含思考与触觉反馈的闭环数据。”在简智机器人联创朱雁鸣看来，单纯靠模仿学习在物理AI里跑不通。如果给机器人喂的是缺乏因果链的“表演数据”，训练出的模型往往只是机械的复读机，一旦遭遇长程任务或意外干扰，就会瞬间崩溃。

简智所做的，是一套关于“人”的全维度数据产品。他们自研从头、到手、到全身的高精度数据获取产品，深入家庭和商超做众包，去捕捉人类不经意的力反馈、多模态感知，甚至并反向分析出其行为背后的思维链。

在具身智能的底层逻辑里，数据不仅是燃料，更是构建认知的“第一性原理”。当大多数玩家热衷于“造车”时，简智为什么笃定要去建“电池厂”？未来具身智能的核心壁垒，究竟在算法还是在于那套关乎人类行为的“说明书”？

答案，远比我们想象的更硬核。

每一条技术路线，都有一个“CTO”

AI科技评论：先从简智的创立开始吧，当时创立公司的初心是什么？

朱雁鸣：我们最初对具身智能行业有一种朦胧的热情。智驾本身也是一种具身智能，但更广义的具身智能可以做人类能做的所有事情，是对生产力的底层变革。所以我们在具身赛道中深入研究的时候，比较想去创造一些差异化的价值，这也是我们选择细分方向时候的一条准则。

我们在2025年7月成立时，更多在复盘整个具身智能产业中有哪些空白、不足，所以不想盲目追热点。我们细想下来行业里不缺做模型的公司，缺的是数据基建，特别是无本体或其他范式下的数据。

当时行业还没有大规模崇尚 UMI 或 EGO 概念，更多在通过运动控制快速出demo，或是用 VLA 的方式训练模型。但我们相信，scale up和数据驱动是智能通往终局的关键路径。而对于物理AI他所需要的数据也与之前不同，文本的世界是结构化的，但我们的生活场景每时每刻都在变化，是非结构化的世界，在此之上具身需要的是逐步替代人的能力。我们需要的是从 Human Data（人类行为数据）入手，构建一套从行动到思考再到反馈的闭环数据产品和平台。

AI科技评论：简智核心团队来自智驾领域，这一背景带来了什么优势？

朱雁鸣：主要是认知层面的优势。泛 AI 领域里，真正实现落地的物理 AI 产品就是自动驾驶，其他 AI 落地大多停留在对话、图像生成层面。自动驾驶是真实在路上跑、服务于人，且在技术上实现了端到端、数据飞轮架构落地，这让我们对数据的 infra 有了深刻认知。

第一，模型算法迭代所需的数据，一定是伴随迭代的人类真实数据。今天具身领域，最需要被突破的方向是的预训练，让模型具备通识、泛化且跨本体的长任务执行能力，并低成本做广泛的落地。

在这个过程中，除了量大之外，更多是让数据“坐标系”与“人理解世界”对齐，这样才能更好的从行为到认知形成闭环。

而且在这个过程中，很多corner case非常有价值，比如人在操作时候收到干扰失败，又怎么去弥补的过程，这些是商业化的必备能力，而这些数据必须通过长时间的真实世界积累，而非人为枚举。

第二，是对数据闭环链路与商业闭环链路结合的思考。做自动驾驶时，数据成本非常低，因为每一台上路行驶的量产车，都在持续生产数据。但具身智能完全不同，它的数据无法天然获取，视频只是最简单的形式，要给模型做长期学习训练，触觉模态、人类思考链路等信息，无法单纯通过安装摄像头获取。这给了我们底层思考：要构建可行的数据链路，必须往更深处发力。智驾的数据生产基于已有的车辆，而具身数据的核心基础，是如何拥有能让人类在自然生活中生产全维度数据的设备。

第三，是长链路、高并发数据处理的经验。做自动驾驶时，每天回流的数据级别接近几百 T，大规模数据和行为需要长链路的清洗流程。这给我们的核心经验是，数据交付除了做好硬件，更重要的是应对长链条、大规模交付的能力，这需要在最开始就对硬件、数据链条、数据加工处理方式做完整的结构化设计。

AI科技评论：简智现在团队大概有多少人？研发占比多少？

朱雁鸣：规模在140人左右，研发人员占比超过85%。

AI科技评论：具身数据是一个交叉领域，对此简智在组织上有什么调整？

朱雁鸣：具身智能需要专业领域人才，更需要领域融合后的综合性创新，数据业务也是如此。所以我们结合各技术领域优势，每个领域预研出一条主线，这条线下的每个人都是CTO。

例如在数采设备上，涉及摄像头、触觉、IMU、磁编码器等，我们有类似CTO的角色做垂线预研，横向则由技术委员会组成，从生产加工到模态再到自动化链条，通过模型驱动拼出完整方案。成熟行业里，一个人很难全栈把所有事情规划清楚，当下的具身数据领域，更需要每个领域都有创新，实现 1+1＞2 的效果。

AI科技评论：简智现在招人一般会招哪些人？

朱雁鸣：我们第一优先级是模型方向的人才，但我们要的模型人才，不是做具身动作输出模型的人才，而是做 data 仿真模型的人才。核心工作是将采集到的人类行为数据，通过模型加工还原成接近人类整体感受的数据格式，这件事难度很高。

我们定义的 human data，核心要素包括人的第一视角图像、全身关节运动、手上的触觉，以及每个动作中的力反馈，这些维度可以完整描述人类绝大多数行为。比如拿起一杯水，包含看到水、接触水、拿起时胳膊感受到的力反馈、拧开瓶盖的全流程。

这里的核心难点是，每个模态由不同硬件收集，各硬件有不同的特征、频率，以及硬件本身特性导致的信息残缺，如何把它们还原成同一时间轴、同一时空坐标系下的完整数据。单纯靠人工、粗糙的时间对齐，都会影响数据质量和精度。

因此我们尝试用数据基础大模型（data foundation model）解决这个问题：把多模态输入注入模型，像训练自动驾驶端到端模型一样，通过真值系统评测输出与真实世界的匹配度，再根据 gap 反向优化模型能力。我们是行业内第一家不用大模型做具身动作模型，而是用模型解决数据问题的企业。

第二类核心人才，是底层硬件能力相关的人才，包括光学、嵌入式软件、PCB 板设计，以及自研触觉方案相关的底层研发人才。我们希望通过底层原理性创新，提升采集过程中的模态精度。上层数据和模型只能做交叉验证、基于已采集信息提升精度，而数据的底层对错，需要硬件质量来保证，这其中有很多围绕人类感受的底层原理创新需要做。

AI科技评论：你们有数采工厂吗？需要专人管理吗？

朱雁鸣：我们采用众包模式，数据来自真实家庭和真实场景，没有用数采工厂方式，这是我们和其他企业不一样的地方，也是我们认为面向终局，大规模、高效采集真实数据的最终路径。

人的行为就是真值，

人能做出来的动作，机器人就应该能实现

AI科技评论：具身数据赛道有细分方向，有的只卖数据，有的也卖设备，简智属于哪种？

朱雁鸣：我们本质上是一家数据解决方案公司，但会根据不同场景提供不同方案。很多面向 C 端的模型公司，落地场景偏生活化，这类数据可以公开获取，比如家庭机器人需要的各类家庭场景数据，我们可以通过众包实现，直接给这类客户提供数据方案。

另一类客户的场景是封闭、自有场景，比如工厂产线、封闭实验室，这类数据无法公开获取，数据所有权本质上在场景应用方手里。针对这类客户，我们会提供硬件设备方案和最高效的本地化部署闭环，让他们在自有场景中完成数据采集和生产。

AI科技评论：有人认为设备是具身数据公司的核心壁垒，卖了设备别人就不买数据了，你们怎么看？

朱雁鸣：首先，数据和设备都很重要。设备是基建中的最底层，它决定了数据的模态数量、底层模态质量，设备的便捷性、成本，也决定了数据采集的规模化能力，但我不认为设备就是全部。

数据最终是服务于模型的，模型需要的不是单纯的视频，也不是多模态数据的简单打包，绝大多数核心工作，都发生在采集后的数据加工处理环节。现在绝大多数模型公司，哪怕是做预训练，都极度追求数据质量，数据质量会从底层影响模型的效果、精度、以及对因果关系的认知。

比如如果发生在餐馆，人会考虑是不是避让其他人的移动、绕开一些饭菜，如果只有动作表层的标注也是不够的，背后都有完整的因果驱动，我们需要给模型提供串联好全模态、稠密的COT过程，才能给模型提供有效的参考，让它更容易学习。

另一个核心原因是规模化。大批量设备采集的大批量数据，如何快速、高效、低成本地转化成可训练的 Token，才是核心难题，生产 100 台设备和 100 万台设备，是完全不同的难度。

AI科技评论：刚刚提到家庭众包，具体是一种怎样的合作方式？

朱雁鸣：我们在众包模式上的运作很像 C 端公司。我们自己做了一款 APP，把设备给到每个家庭，用户通过 APP 了解采集任务，用我们的设备完成正常的家务动作即可，不需要对用户的操作做额外的教育和约束，用户的自然操作对模型来说反而更有价值，模型需要学习多样化的人类行为，才能补充场景盲点，因此行为上传后我们通过云端来识别、标注。

另外我们的设备在人机工程上也有明显优势，非常轻便，使用效率和人类正常干活的效率基本一致。用户完成操作后，通过 APP 上传采集的数据，我们基于数据回收情况给用户结算，整个流程自然且高效。

AI科技评论：有没有工业或商业场景的众包？

朱雁鸣：有的。目前50%是家庭，30%是商超和工厂，10%是物流，剩下的10%是医疗、实验室等分散场景。

AI科技评论：场景方会有隐私顾虑吗？

朱雁鸣：这个问题我们有完善的解决方案。首先，所有数据的隐私处理，都有一套标准化流程，包括地点、人脸、对方知识产权相关的信息，都会在数据售卖前完成脱敏处理，这是数据公司的基础义务。

第二，我们和每一个场景方、采集方合作时，都会在合作协议和费用说明里，明确标注双方的权利归属，我们获取的不是用户的个人信息，而是其在场景下的行为和操作数据，本身不会涉及过多个人隐私数据。

AI科技评论：众包没有标准化流程，数据质量会不会参差不齐，给后期处理带来压力？

朱雁鸣：因为我们崇尚人的行为其实都是“真值”，毕竟无论什么情况，人都是可以克服困难完成任务。因此关键在于真值上传后，是否有一套自动化的方式完成数据识别与处理。

我们的自动化识别，核心是把人的行为和动作做对齐，进行细致化的标注、分类，而非判定人的行为对错。还有质检环节，核心是对人的操作行为做分类，而非丢弃数据。我们会区分高速高效完成的动作、有干扰场景下完成的动作、失败后完成纠错的动作，同时对数据做颗粒度极细的原子化处理，以适配模型不同训练阶段的需求。

AI科技评论：你们的海外收入占比挺高的，你们在出海过程中有遇到哪些阻碍？

朱雁鸣：海外模型公司对数据的要求非常高，目前海外模型公司在模型训练上的进展整体快于国内，他们对触觉模态、训练数据的体量规模、多样性的要求非常严格，同时要求我们的迭代速度能匹配他们模型的进展。

AI科技评论：随着数据量增加，存储和算力会有压力吗？

朱雁鸣：肯定会有，但这件事我们很早就有预判，因为数据飞轮的重要因素就是“数据流转效率”，对此我们从源头做了三层解决方案：

第一，端侧的数据压缩与质检。我们的每一台设备，在采集端就具备数据质检能力，能根据人的行为、场景的特殊情况，自动丢弃无效数据，避免无效数据占用传输链路和存储空间。

第二，行业领先的无损压缩能力。我们在压缩比例和对训练效果的影响上，做到了行业综合最优。传统压缩方案很难平衡压缩比和有效信息损失，我们可以把原生数据压缩到原来的 2%，且压缩后的数据解包用于模型训练，训练的指标和效率基本不受任何影响。

第三，自动化的数据处理速度。存储成本主要来自两部分，一是采集后的原生数据等待加工的暂存成本，二是加工后的成品数据存储成本。最容易被忽略的，是原生数据等待加工的排队存储成本，这也是我们一定要用模型做自动化处理的核心原因。人工处理是线性增长的，只能靠加人提升效率；而模型可以实现指数级的效率提升，让存储成本大多只发生在成品数据上，而非中间过程。

现在行业对 EGO centric 的理解，

大多还停留在浅层的第一视角图像

AI科技评论：你们对不同数据路线，比如仿真、互联网视频、遥操怎么看？

朱雁鸣：我个人认为，不同数据路线，要结合模型的训练阶段来看，它们有不同的使命和目标，但高精度、质量、完整且泛化是通用性的要求。

首先，如果想构建具备通用能力的具身基座模型，让模型学到底层的物理环境认知能力，那么对标对象一定是人，核心是人的 EGO（自我中心）视角出发的认知。第三视角的认知，无法形成行为因果的闭环。

比如打开冰箱拿可乐，人打开冰箱看不到可乐，会先拿走挡住可乐的物品，再拿可乐。从第三视角，无法覆盖这些行为的完整逻辑，也无法闭环人执行这些动作的因果链。因此，对于基座模型的预训练阶段，最重要的就是大量第一视角下，人类的闭环行为和逻辑数据。

仿真合成数据的价值会随着两个因素快速弱化。一是模型要解决的问题的复杂程度。合成数据最难的不是物理特性的仿真，比如丝巾、水流、头发丝的仿真，而是无法仿真真实的交互。比如美国餐馆端菜的场景，核心难点不是端菜动作，而是狭窄过道里避让客人，客人抬胳膊的瞬间做出避让动作，这些来自真实生活的交互场景，完全无法通过仿真模拟。随着问题交互复杂度的上升，仿真数据的价值会快速下降。

二是长程任务的需求。现在行业里很多具身任务都是短程的，比如叠衣服 2 分钟就能完成，但真实的家务任务，比如拖地需要半小时，中间还要去清洗拖布，这个过程中需要持续的思考和任务拆解，长程任务的逻辑，仿真也很难模拟。因此，仿真数据只在解决拿、放等基础动作问题时有价值，越到真实场景的复杂问题，价值越弱。

另外，仿真的幻觉是非常严重的问题。物理 AI 对幻觉的容忍度极低，这和语言模型完全不同。就像自动驾驶对幻觉零容忍，一旦出问题就是人命关天；机器人商业化落地也是同理，用户不会接受机器人有概率损坏家中财物。仿真的因果本身不真实，会产生大量幻觉，让模型误以为错误的逻辑是正确的，这也是核心短板。

真机遥操数据在我看来更适合用在评测和后训练过程中。模型训练的完整流程，应该是通过人类数据完成预训练，再通过精选的人类专家数据完成中间训练，最后基于评测结果做强化学习和后训练。真机遥操就发生在最后这个环节，基于模型前两个阶段的学习，在每个任务中的表现，找到需要强化的部分，反向驱动模型优化。与其说遥操是训练数据，不如说它是用来发现模型 bug、反向优化的评测数据。

AI科技评论：你们现在用最多的是EGO数据吗？

朱雁鸣：是的。Ego我们认为是最容易scale，且符合第一性原理的，因为天然和人的认知对齐。

AI科技评论：EGO 今年才火起来，但是你们去年 10 月就开始往这个方向做产品了，为什么会这么早进入EGO赛道？

朱雁鸣：一方面来自智驾经验。智驾已进入深水区，单纯增加数据量无法指数级提升指标，应用和训练场景极度泛化。因此智驾的训练核心已经变成了强化模型的认知能力，也就是思维链（COT）能力。

具身智能也一样。遥操本质上就是最基础的模仿学习，行业里很多 demo，都是在相同场景下录几百小时的人类数据，回灌给模型，让模型以接近回放的方式复现操作。但模型学到的只是表层的轨迹，没有真正理解动作背后的深层逻辑，比如叠衣服为什么要先拿一角，衣服一角掉了要不要捡起来。

这些深层逻辑，只有 EGO centric 的数据能提供，非 EGO 视角的训练，缺少了对模型深层认知的监督，只能监督轨迹和图像，无法监督模型面对问题时的解决方案，也无法获取人类行为背后的思考逻辑。

AI科技评论：为什么行业之前没有大规模用EGO Centric？

朱雁鸣：因为去年大家都在用 VLA。VLA 的 Backbone 是语言模型，它构建的因果是面向文本输出的，没有空间、重力、摩擦力，也没有长链条决策。现在大家发现 VLA 满足不了物理世界要求，所以开始回归到导入大量人做事的方式进行训练。

AI科技评论：大家都在开发自己的EGO设备，会不会重复造轮子？

朱雁鸣：这涉及到EGO centric 的数据核心要求。现在行业对 EGO centric 的理解，大多还停留在浅层的第一视角图像，很多人头上戴个 iPhone、挂个 GoPro 就开始采集数据，但这只是第一视角的视频，只靠视频无法闭环人的行为和感知，存在严重的信息缺失。

第一，真正的 EGO 数据，应该是多模态的，而不只是视频这一个单一模态。人完成操作，不是只靠视觉反馈，还有手的触觉、力反馈等感知信息，这些模态信息，无法通过单一的摄像设备完成采集。长期来看，具身模型一定需要理解触觉，才能和人类的行为对齐，单一视觉的 EGO 数据，无法满足模型的长期训练需求。

第二，多模态数据对质量和精度有极高的要求。数据精度越高，AI 产生幻觉的概率就越低。因此，EGO 数据对关节精度、感知精度有天然的高要求，真正有价值、能被模型大批量学习的，是多模态、高精度的 human data，而非低质量的第一视角视频。低质量数据训练出来的模型，需要极高的二次调优成本，就像 OpenAI 早期用互联网语料训练，最后发现大量问题，只能雇佣大量人员生成高质量的人类对话数据重新训练。

AI科技评论：那能不能用你们的手套，配合我自己的手机摄像头采集数据？

朱雁鸣：普通消费级设备无法满足 EGO 数据的采集需求，这里有几个底层的技术要求。

第一，视角高精度采集，对视野有硬性要求。目前行业里有激光雷达、红外、纯视觉三条技术路线，纯视觉是最合理的，因为它的鲁棒性最高，也具备规模化能力，激光雷达受硬件限制无法大规模铺开。而纯视觉方案，对摄像头的数量和视野有明确要求。

人眼的视野是 150 度，操作时手很容易超出这个视野范围，机器人无法像人一样转头、转动眼球，因此采集设备的视野需要远超 150 度。我们的 EGO 采集设备做到了 270 度视野，可以完整覆盖人手的所有动作范围，保证因果链的完整。

第二，精度需要多摄像头差分来实现。就像人的双眼判断距离更准确，多摄像头的相位差，可以大幅提升定位精度。我们实测，单摄像头的指尖精度上限最多 2 厘米，双摄像头可以降到 1.2 毫米，三摄像头可以降到 0.8 毫米。因此，EGO 采集设备需要定制化的多摄像头方案，传统的单摄像头手机，无法满足精度要求。

AI科技评论：所以“原装”的设备才是最优的解决方案？

朱雁鸣：对，因为设备是反推数据需求来设计的，如果真的这么简单，我们也不会投入这么多成本去做自研。

AI科技评论：头戴设备和手部设备的协同，会不会难度很高？

朱雁鸣：难度非常高。首先是通讯与时间对齐的要求，手部设备的图像、触觉采集有固定频率，头戴设备的视频流也有单独的采集频率，需要把二者的时间精度对齐到 1 毫秒。如果做不到，就会出现手已经抓到物体，眼睛看到的还是上一帧画面的延迟问题，直接影响数据的有效性。

现在我们做到了毫米级定位。我们最终要产出人在绝对空间下的绝对行为和轨迹，需要先实现头和手的高精度相对定位，再以头为中枢，实现头与环境的相对定位，才能构建起手-头-环境的完整定位体系。头和手的相对定位，没有直接的测量方式，只能通过多相机视觉实现，这对相机路数、云端数据处理能力都有极高的要求。同时，在野外、大型商超等大空间场景中，人在空间里的绝对定位也有很高难度，需要多传感器组合方案才能保证数据精度。

AI科技评论：最早你们用的是“夹爪”（UMI），现在变成了手套，夹爪和手套是进化关系还是并行关系？

朱雁鸣：是并行关系，本质上是不同应用场景的适配。很多场景下，两根手指的夹爪就足够了，比如工业场景、基础物流场景，只需要捡箱子、翻动物品，两指就能满足需求；五指结构则是面向更灵巧的操作场景。

如果从层级关系来看，五指是比两指更上层的解决方案，更具备长期价值。如果模型基于五指数据学会了人类的基础认知和能力，未来即便应用本体是两指、三指结构，也不需要很高的迁移成本，这就是行业常说的跨本体迁移问题。跨本体迁移的底层，是模型的认知深度，以及是否形成了完整的因果闭环，而非依赖固定的硬件形式。

AI科技评论：那现在 UMI 夹爪在你们的产品体系里，定位是什么？

朱雁鸣：UMI 现在的定位，主要服务两类需求。一类是适配特定的应用场景，比如工业场景中，只需要两指就能完成操作，甚至需要粗壮的两指完成重物、大零件的操作，五指反而会成为负担，这类场景会用 UMI 方案；第二类是适配客户的产品需求，有些客户现阶段落地的产品就是两指类本体，反向需要两指类的数据满足训练要求，我们也会提供对应的 UMI 方案。

另外，传统 UMI 的构型，需要人操作设备完成动作，行为不自然，采集效率低，还会因为操作熟练度产生脏数据。我们现在做了新款的 Fingers 产品，构型更接近人的两根手指，相当于从五指产品中去掉三根手指，只保留关键的两根，是仿生构型，在采集效率、行为自然度上都有大幅提升。

AI科技评论：你们的客户对高质量数据的要求有哪些？

朱雁鸣：要求大概有四点。

一是极高的多样性要求，这一点可能反常识，即便客户只聚焦一个应用场景，在模型训练阶段，也需要多样的行为、空间理解能力，来提升模型的鲁棒性和泛化能力。

二是完整的模态，模型训练本质上是监督学习的过程，监督的关键，就是模态与结果的对齐是否完整，因此所有和动作结果相关的模态，都必须完整覆盖，这是核心要求。

三是极致的精度，数据精度从底层决定了模型的幻觉概率，高精度的原始数据，是模型训练效果的基础保障。

四是完整的思维链，这一点目前行业还没有广泛讨论，但它是机器人实现长程任务的关键数据要求。比如拖地这个长程任务，拖过的地方不需要再拖、什么程度需要清洗拖布，都没有固定的标准，人类执行时的思考和推理过程，不会边做边说，在现有数据中是天然缺失的。

但这些推理过程，是让模型理解动作背后逻辑的核心。如果只看 100 个人拖地的动作，每个人的行为是发散的，模型无法理解背后的逻辑，只能给出平均值，无法适配真实场景。因此，包含完整思维链的数据，是高质量数据的核心特征。

机器人厂商不会规模化数采，

就像汽车厂商不会自己建电池厂

AI科技评论：去年很多公司喊出“百万小时数据”目标，你觉得实现起来难不难？

朱雁鸣：非常难，因为对我们来说，这百万背后，不是单纯的堆量，而是高质量的数据集合。首先从人力角度来看，一个人一天有效产出数据的时间大概只有 5-6 小时，受体力等因素限制，无法满负荷产出。百万小时至少需要 20 万人天，即便有 2000 人的运营团队，也需要持续运营 3 个月以上，才能实现这个目标，而这只是人力层面的难度。

更关键的是，这背后需要配套海量的采集设备、极强的模型自动化处理能力、通畅的数据链路。整个流程就像漏斗，任何一个环节出问题，都会产生层层折损，最终能转化的有效数据比例会大幅降低。

从我们的角度来看，要实现这个目标，有三个核心门槛：第一，是否有能满足高质量数据要求的设备；第二，设备能否实现众包规模化落地；第三，是否具备大规模数据的自动化链路处理能力。今年我们有信心产出超过500万以上的高质量数据，这也是我们体系化能力建设后的快速增长能力。

现在我们有信心、也已经和其中大部分企业建立长期合作。喊口号没有意义，关键要看是否真正落地了相关的设备、团队和体系化能力。

AI科技评论：有些做模型的公司，自己也在做数据，那做数据的公司，是不是也可以自己做模型？你们未来会不会切入模型赛道？

朱雁鸣：我们对模型始终保持敬畏。一个行业的发展分为三个阶段：学术阶段，核心是确定实现长期目标的技术范式；产业阶段，范式明确后，用工程化的方式加速落地；商业阶段，面向交付、成本、商业化指标优化。

从目前来看，具身智能行业，连学术阶段的问题都没有被完整解决，现在行业里的产品，很难在某一个专职事情上做到和人一样的水平。因此，我们现阶段的核心，还是服务好模型公司，帮他们训出更好的模型。

AI科技评论：如何看待GEN1？

朱雁鸣：至少从我的角度，我非常认可 Generalist，他们是一家非常纯粹的公司。他们一直坚持用 scaling law 的方式，提升具身智能的表现，这是他们的底层驱动。

回到 GEN1 的表现，我认为有三个核心亮点。第一，实现了同一模型的多任务执行能力。现在行业里很多公司的模型，本质上是狭义的专有模型，比如专门做叠衣服的模型，换个任务表现就会很差，但 G1 在多任务场景下的表现，已经得到了验证。

第二，模型从多样数据中，真正学到了人类的纠错能力。从他们发布的视频能看到，模型第一次执行任务失败后，能快速根据错误完成纠正；面对刻意的干扰，也能及时给出解决方案，这一点非常难得。

第三，已经开始探索长程任务的实现。他们已经在尝试 3-5 分钟完成一个完整的复杂任务，而非同一个动作重复十几次，这是行业里非常少有的探索，也贴合具身智能的真实落地需求。

AI科技评论： Generalist 训练用的数据，主要也是 EGO 数据吗？

朱雁鸣：他们现在主要还是用 UMI 夹爪，但也已经在探索ego方向，因为umi存在自己的上限，尤其是移动机器人场景，UMI 会更难适配。

AI科技评论：Generalist 与国内具身智能公司有哪些差异？

朱雁鸣：首先是理念上的差异。Generalist 与其说像一家公司，不如说更像一家科研机构，团队只有二十几个人，没有商业化目标，融资也不以商业化做核心诉求，非常纯粹，专注于通过底层创新迭代技术本身。而国内大多数做具身的公司，都背负着融资和商业化的压力，很难做到这种纯粹。

其次是勇气，现阶段人类数据做基座模型、大规模预训练是需要投入非常多资源，而且存在巨大不确定性的事情。Generalist 的底层创新，核心是没有复用任何开源模型，完全基于 UMI 的数据从零重训，这个过程非常漫长，需要消耗大量的算力和数据，后期的消耗只会更大。

AI科技评论：未来国内数据赛道的格局会是怎样的？

朱雁鸣：会是有头部也有分散的生态。因为第一这个市场的盘子足够大，没有任何一家公司能完全吃下。第二，数据面向商业化落地时，会有大量垂类需求，数据和算法是绑定的垂类关系，不可能有一家公司的一套方案，能完美适配所有场景，一定会有企业在细分垂类里做得更适配。

因此，最终会形成的格局是：有几家公司做成大的通用数据平台，而在细分垂类赛道里，依然有不同的玩家，是一个多元的市场状态。在通用场景下，行业会慢慢趋同，会出现方案、价格都有明显优势的头部供应商。

AI科技评论：整机厂商未来一定要买第三方数据吗？这种数据依赖是持续性的吗？

朱雁鸣：本质上这是产业链分工的问题，不存在某个技术壁垒让别人完全做不了，但随着行业成熟，产业链分工会越来越明确，各方的边界也会越来越清晰。

第一，数据全链条的复杂度，远超语言模型和自动驾驶时代。它需要单独的设备研发、单独的链路搭建、单独的模型和运营能力维护，而且数据的价值是长期的。机器人训练新模型，最值钱的不是它已经会的操作数据，而是它不会的、犯错的场景数据，这需要持续的、大规模的数据采集和处理能力。

第二，全链条的体系化能力，会形成效率和成本的壁垒。短期壁垒是谁能先搭建起完整的体系，提供模型公司需要的产品；长期来看，就是成本的竞争，体系越成熟、效率越高，规模化后的成本优势就越明显。

我经常用一个类比，数据对于机器人厂商，就像轮胎对于汽车厂。电池是每台车的必备部件，成本也不低，但现在没有一家汽车厂会自己建轮胎厂，核心原因就是专业的厂商，在成本、效率上都比自己做更高，从零到一自建反而得不偿失。

AI科技评论：数采行业的核心竞争力是什么？

朱雁鸣：数采行业的核心竞争力有三个核心维度：

第一，自动化能力。核心是数据公司能不能构建自己的飞轮：随着交付的数据越多，自动化能力越强，数据交付的效率越高、质量越好。这是具身时代对数据公司的核心要求，谁能先构建出以数据链路、模型驱动的自动化数据产线，谁就掌握了核心竞争力。

第二，硬件模态研发能力。现在大多数数采公司，都没有专注做硬件的底层研发，要么用开源方案，要么用消费级产品拼凑，这种拼凑出来的方案，产出的数据看似可用，但 3-5 个月后就会被证伪，无法支撑模型的长期训练。硬件模态的研发，还要兼顾低成本，只有确定了可规模化、低成本的模态方案，才能谈第三个核心竞争力。

第三，真正的规模化能力。自动化水平高、模态全、成本低，才能实现最好的规模化。规模化的核心，是构建敏捷的数据链条，实现成本的非线性增长。如果 10 万条数据的成本，只比 1 万条翻了一倍，而非 10 倍，才能不断提升业务的天花板，这才是可持续的商业模式。