从智元进厂打工到特斯拉量产启动——2026 年具身智能行业洞察



上周,智元机器人"精灵 G2"以"正式员工"身份上岗,全程直播 8 小时不间断作业。这是全球首次具身智能工业产线的规模化并线验证——真实的节拍、真实的物料、真实的品控标准。
同一周,大洋彼岸也在加速。4 月 15 日,特斯拉中国区总裁王昊公开表示,上海超级工厂是 Optimus 人形机器人规模化量产的"金钥匙"——这是特斯拉高管首次明确上海工厂将参与机器人制造。为聚焦机器人业务,特斯拉已宣布二季度停产 Model S 与 Model X,将弗里蒙特工厂转型为 Optimus 专用产线,今夏启动量产 。

一个在中国工厂并线实战,一个把美国汽车产线改造成机器人工厂,信号已经再清晰不过——具身智能正从实验室样品加速冲向规模化部署的新阶段。所谓具身智能,就是给 AI 一个身体,让它在物理世界里感知、思考、动手。它被广泛认为是通向通用人工智能的关键路径——做一个能自主应对复杂环境的智能体。
市场数据也在给这个方向投票。2025 年全球人形机器人及物理 AI 市场规模已达 62.4 亿美元,预计以年均 50.6% 的增速在 2034 年突破 2,613 亿美元。中国具身智能市场更是已经达到 9,150 亿元,2026 年剑指万亿。资本的反应比谁都快——今年一季度,中国机器人领域融资额就超过了去年全年的一半 。钱已经在路上了,这不再只是一个"未来可期"的故事。

▍钱涌进来了,花在了哪里?
2025 年是具身智能真正意义上的"融资元年"。全年机器人领域融资超 600 笔,参与机构逾 600 家 。人形机器人赛道一枝独秀,独占整个领域融资额的 36%,亿元级交易成了家常便饭 。进入 2026 年势头不减反增——一季度融资总额就超过了去年全年的一半,多家企业估值冲上百亿,几乎每周都有新的大额融资消息传出。
比起金额本身,更值得玩味的是谁在掏钱。百度、阿里、美团、京东从技术基座角度卡位,反复出手超过 60 次;上汽、歌尔、龙旗科技等传统制造业巨头从产业协同切入,累计投资超 40 次 。整条资本链带着清晰的产业逻辑——抢身位。
甚至头部创业公司也在反向投资上下游——智元机器人通过反向收购上市公司上纬新材,开辟了一条非传统的二级市场融资路径。这种玩法在创业圈里还很新鲜,说明具身智能赛道的资本运作已经开始进入"深水区"。
值得注意的是投资阶段的结构性变化。2025 年具身智能融资额达 334.73 亿元,是 2024 年同期的 4 倍。更重要的信号是资金正在结构前移——早期和中期项目成为投资主流,说明产业资本不仅在押注赢家,也在系统性布局上游核心技术。这种投入节奏,与三五年前自动驾驶行业的资本狂潮颇为相似。
政策层面也在加码——具身智能已写入 2025 年《政府工作报告》,北京、深圳等地密集出台专项扶持——但真正让资本动心的是文件背后折射出的市场确定性。当国家把一个技术方向写进顶层规划,嗅觉灵敏的资金自然蜂拥而至,这在光伏和新能源车赛道上已经验证过了。
热钱涌入的底层支撑,是真实的、结构性的需求。全球护理人力缺口在持续扩大 ,中国制造业用工成本近十年来翻了一倍多,企业对全天候不间断作业的渴望日益迫切。更不用说消防、核辐射、深海深空这些极端场景——人类不愿去或去不了的地方,机器人可能是唯一的解法。这些需求是实实在在存在了很多年,只不过技术终于追上来了。
当然,热钱也在酿泡沫。一些尚未跑通商业模式的公司估值已飙到数十亿,让人想起自动驾驶行业在 2018 到 2021 年间经历的融资狂潮与随后的估值退潮。资本能催熟一个产业,但催不出真正的技术跃迁。好在配套生态正在跟上:广东已落地首单机器人专属保险,机器人租赁市场持续升温。当保险公司开始给机器人做风控的时候,说明这行确实踩到了商业化的门槛上。
▍离具身智能的高光时刻还有多远?
如果说资本是燃油,那技术架构就是发动机。当前主流路线是"大脑-小脑-肢体"三层结构:大脑由 AI 大模型担任认知决策,负责理解环境和制定策略;小脑负责运动控制,把抽象指令翻译成肌肉动作;肢体则是各类执行器,直接与物理世界互动。串联三者的关键技术是 VLA 模型。
技术路线上的一个重要演进方向是"通用大模型加垂直场景微调"。以 Figure 公司的 Helix 模型为例,仅需数百小时训练就能指挥多台机器人协作完成冰箱物品收纳,展现出对未知物体的零样本泛化能力。这种范式的核心价值在于:不必为每个场景从零训练,基于强大基座结合少量场景数据就能快速定制解决方案,大幅压缩开发周期。
近期的硬件突破同样令人振奋。端侧大模型已实现 7B 到 13B 参数的本地部署,交互延迟压到 200 毫秒以内,意味着机器人的"反应速度"已经接近人类水平。灵巧手做到了 12 至 19 个自由度,力控精度达 ±0.5N,能够完成精密装配这类过去只有人手才能干的活。至于全身运动控制——"闪电"在半马赛道上展现的动态平衡和地形适应,就是最有说服力的注脚。
但横亘在行业面前最大的障碍是数据。业内有一个被广泛引用的判断:要实现具身智能真正的能力涌现,至少需要百万小时的物理交互数据。而目前全行业的积累量,不到这个目标的 5% 。打个比方,这就好像想训练出一个 ChatGPT 级别的语言模型,但手头只有一本书的语料。数据的匮乏,是当前制约行业跨越式发展的最大瓶颈。
数据从哪里来?目前有三条路径在同步探索。第一条是遥操作——由人类远程操控机器人完成各种任务,同步记录完整的运动轨迹。这条路精度最高,但成本极为惊人:智元的数据采集工厂占地 4,000 平方米,日产也不过万条轨迹数据,而且这些数据跟特定机型强绑定,换一台机器可能就得从头来过 [16]。
第二条路径更有想象力——所谓的"无本体"数据采集。通过动捕设备直接记录人类的自然动作,不依赖任何特定机器人。更大的想象空间来自互联网上海量的人类视频:GR-2 在 3,800 万段视频上做预训练之后,100 多项任务的成功率达到了 97.7% [16]。这条路的天花板之高,几乎等于整个互联网的视频库存量。
第三条是仿真合成数据。NVIDIA Isaac 生态、银河通用的十亿量级仿真数据库走的都是这条路——银河通用甚至基于全仿真数据发布了首个全仿真预训练具身大模型 GraspVLA。逻辑很朴素:真实数据采集太慢太贵,那就用计算机模拟来大规模生成。
但核心痛点在于 Sim2Real Gap,仿真中完美运行的策略放到真实世界可能一塌糊涂。而构建高保真仿真环境本身的隐性成本,也远比外界想象中要高得多。
自动驾驶的前车之鉴在这里格外值得借鉴。高精地图的教训告诉我们,靠堆积静态数据的路走不远,真正的关键在于建立可以自我强化的数据飞轮。但飞轮有个"冷启动"难题——自动驾驶好歹能"边卖车边采数",具身智能却缺乏规模化部署的载体来持续喂养数据。而龙旗科技这样的产线实测,正在为飞轮的转动提供最初的动力。
三条路径不是非此即彼的关系,行业真正需要的是"多源混合、动态闭环"的数据生态。但比技术路径本身更紧迫的,是建立统一的评估基准——就像 ImageNet 当年催化了计算机视觉的爆发式繁荣,具身智能也亟需一把共同的标尺。有了可比较的评估体系,进步才能度量,竞争才有参照,产业资源也不会在各说各话中白白浪费掉。
▍中国的商业化棋局
在全球具身智能的牌桌上,中国手里有一副好牌。根据国家发改委及智源研究院统计,中国具身智能企业已超过 230 家,其中人形机器人企业超 150 家。全球人形机器人出货量前六名全是中国企业,2026 年中国市场产量预计同比增长 94% 。
供应链纵深更是中国的核心护城河。手部零部件供应商中国有 25 家,美国仅 7 家;腿部线性执行器供应商中国有 30 家,美国仅 6 家;整机成本大约是海外同行的一半。这种优势是整条产业链长期协同磨合的结果。
美国的底牌在基础模型创新。特斯拉 Optimus、Figure AI 用最前沿的 AI 能力来驱动机器人硬件,走的是"软件定义机器人"的路线 。中美之间的格局有点像手机产业:美国长于芯片和操作系统,中国赢在整机制造和市场渗透。短期看中国在工程化量产和场景密度上的领先很难被追平,但长期看基础模型层面的差距也需要正视。
国内市场已出现清晰的梯队分化。第一梯队由智元、宇树、银河通用领衔——智元出货量全球居前,"精灵 G2"在龙旗科技的产线实测堪称里程碑;宇树的"闪电"在半马赛场上证明了运动控制的天花板高度;银河通用则走出了全仿真合成数据的独特路线。它们已经跨过了从实验室样品到工业量产的那道门槛。
第二梯队的故事同样值得关注,而且可能更加接地气。数字华夏、擎朗智能、元鼎智能等非人形机器人企业,已经在巡检、仓储、酒店服务等垂直场景跑通了完整的商业闭环,有的甚至已经实现了千台级别的规模化部署。不过,目前真正在规模化赚钱的是那些"不那么酷"但确确实实在创造价值的专用设备。
人形和非人形之间不存在谁替代谁的问题——就像轿车和卡车各有各的用途,不同形态的机器人适配不同的场景需求。人形机器人的长期优势在于天然适配人类设计的工作和生活空间,通用性潜力更大;但短期内技术成熟度和成本仍是硬约束。非人形产品在垂直场景的渗透速度,可能远超多数人的预期,千台乃至万台级的实际采购订单已经开始出现。
商业化的经济账算得非常现实。要替代一个年成本 10 万元的产线工人,机器人售价就得控制在 10 到 15 万元。回顾成本曲线,人形机器人单机成本已经从早期的百万元级降到了几十万元,正以百台、千台级别的量产节奏向大规模制造逼近。更激进的价格战已经打响:宇树 R1 起售价 2.99 万元,松延 Bumi 更是做到了万元以下。当一台人形机器人的价格降到一辆电动车的水平,很多原本算不过来的应用场景就开始有了经济可行性。
还有一类潜在入局者值得高度关注。大型 AI 企业目前多数在观望,但一旦技术路线收敛清晰,它们随时可能携算力和海量数据优势大举杀入。新能源车企同样是不可忽视的力量——手握自动驾驶技术积累、工厂场景天然适配、现成的制造供应链体系——它们是天然的跨界选手。这场竞赛的最终参赛名单,远远没有定稿。
行业的长远终局不在卖硬件。MaaS 模式正在萌芽——云端技能库加边缘侧协同加标准化本体,走的是从 PC 到智能手机的平台化演进路径。就像智能手机的真正价值不在手机本身而在 App 生态一样,具身智能的价值最终也不在那个"身体"上。卖机器人只是这个产业的起点,卖"能力"才是真正的终局。
▍万亿市场与 60% 的真实成功率
目前,技术层面有四个方向正在定义具身智能的未来走向。第一是世界模型——让机器人拥有"物理直觉",使其能提前预判接下来会发生什么。李飞飞的 World Labs、NVIDIA Cosmos 都在这个方向上重注投入。这或许就是通往"具身智能 GPT 时刻"的那条关键路径。
第二是硬件的模块化与标准化。这一点的紧迫性怎么强调都不为过——当前传感器、一体化关节、控制器等核心部件在机械接口、电气规范和通信协议上缺乏统一标准,整机厂商不得不针对不同供应商做定制化适配,研发周期被大幅拉长。一旦核心部件能像电脑配件一样即插即用,行业就进入了属于自己的"PC 时代",整机成本有望在 2028 年前下探到 10 万元以内 。
第三是数据飞轮的真正成型——头部企业正在跑通"部署、采数、优化、提升、再部署"的正向循环,这一旦转起来将产生强大的先发壁垒。
第四是国产化闭环,国产大模型迭代加速,银河通用等企业已通过自研 VLA 大模型摆脱对第三方模型的依赖,2028 年核心部件有望实现 100% 自主可控。
市场预测也足够诱人。中国具身智能整体市场 2027 年预计达 13,232 亿元,全球人形机器人及物理 AI 市场到 2034 年有望触达 2,613 亿美元。数字固然很大,但落到实处需要穿越的周期也很长。对这类长周期预测,既不必嗤之以鼻也不必奉为圣经——它更像是一个方向标,告诉我们赛道的宽度和上限在哪里。

但 VLA 和世界模型等技术路线尚未收敛,过早全力押注单一方向,可能面临巨大的沉没成本和路线切换的阵痛。机器人在室内工作场景涉及大量隐私数据,合规框架至今仍不完善。行业标准的缺失也让人头疼——没有统一的能力评估基准,各家公司的宣传数据就缺乏可比性,投资者很难做出真正理性的判断。
有数据表明,实验室环境下 95% 的任务成功率,放到真实场景中可能直接跌到 60% 。龙旗科技那个 99.5% 是在特定的结构化工位上取得的成绩,距离通用场景下的稳定表现还有相当距离。与此同时,能同时驾驭 AI、机器人和物理仿真三个领域的跨学科人才极度稀缺,人才供给的增速远远跟不上行业的膨胀速度——这个瓶颈可能比技术本身更加难以突破。
还有一层更深的不确定性,当机器人真正大规模走进工厂、家庭和公共空间,社会层面的接受度和伦理争论将会急剧升温。我们还没有为"机器人同事"和"机器人护工"准备好完善的社会契约——这是涉及法律、伦理和文化的系统性挑战,需要全社会共同作答。
从智元的万台里程碑到特斯拉的量产布局,2026 年春天的故事确实动人。但具身智能不是百米冲刺,它是一场马拉松。好消息是,中国在供应链深度、场景密度和工程化能力上的综合优势,意味着我们有资格、也有能力跑好这场长跑。对从业者和投资者来说,最务实的策略或许就是:把目光盯在数据基础设施和垂直场景上,时刻警惕"技术叙事"与"工程现实"之间的那道裂缝。
参考来源:
[1] 东方财富:智元精灵 G2 在龙旗工厂连续 8 小时作业
[2] 36 氪研究院:2026 年具身智能产业发展研究报告
[3] 亿欧智库:中国具身智能产业发展与竞争格局对标分析
[4] 2026 具身智能数据行业研究白皮书
[5] 每日经济新闻:一季度人形机器人成资本最强风口
✦ 最新活动 ✦
















✦ 精选服务 ✦
「新探计划」由有新 Newin 联合探奇资本发起,我们关注 AI 大浪潮中持续解决真实问题的创业团队,为优质项目匹配合适的创业资源,不限于融资、宣传、产品设计以及商业化探索等。

✦ 精选内容 ✦
Kollab 想把 AI 变成团队操作系统,从个人提效到组织复利
前腾讯云架构师打造的“金融龙虾”,用 Agent 打造你的专属基金
EdgeClaw Box:在养虾潮的安全焦虑中,推开 OPC 时代的大门
在 AI 替你干活之前,Violoop 先给它装一个物理刹车
Junior:一个有邮箱、有目标、会主动干活的 AI 同事,正在改变未来职场


