149 元叫了个保洁，来了三个人伺候一台机器人，超值

发布时间：2026-05-16来源：APPSO

花 149 块钱，能买到什么级别的保洁服务？

答：一个阿姨 + 一个工程师 + 一台重逾百公斤的盘式机器人，上门服务三小时。这个配置放在 58 到家的订单页上，一度让人怀疑是不是系统 Bug，少了打了一个零？

托马斯白就是带着「这不可能不是坑」的心态下的单。5 月 10 日上午十点，门铃响了。门外站着三个人和一个机器人，货拉拉司机推着机器人，工程师背着工具包，阿姨系着围裙。

阵仗不小，然后呢？

工程师的主要工作是盯着急停按钮

机器人背后挂着一台 4K 无线投屏设备，经 5G 路由把画面同步到几公里外的远程操作员屏幕上，大部分动作都是远程遥操完成的。

机器人卡机了两次，工程师上前调试重启；剩下的时间他的主要工作是站在机器人后面，盯着那颗红色急停按钮。

机器人过不了门槛，所以只负责客厅。

三个小时里，它拎起倒地的书包、拉上拉链（夹了 3 次才成功）、把三个书包摞成一摞。叠了五六件衣服，每件耗时 5 到 10 分钟，叠完像揉过的报纸。茶几杂物归类丢进垃圾桶，餐桌杂物码成半桌，临走把门口的鞋摆齐。

阿姨则收拾厨房、厕所、卧室。托马斯白说，那位「附赠」的阿姨兢兢业业，这次体验的下限被她拉得很高。

总结来说，机器人负责表演，阿姨负责兜底，工程师负责盯着别出事。

这 149 元的服务，来自自变量机器人与 58 到家今年 3 月在深圳上线的合作项目。

更多体验细节欢迎收听托马斯白播客「脑放电波」🔗https://www.xiaoyuzhoufm.com/episode/6a01e2901b7bd50295f0ee49?s=eyJ1IjoiNWZjNGJiNzZlMGY1ZTcyM2JiM2Q1YmM5In0%3D

但你可能低估了这台「叠不好衣服的机器人」背后的资本阵容。

这家成立两年多的公司，在过去半年里把阿里、美团、字节跳动、小米四家互联网大厂罕见地拉到了同一张投资名单上，是国内唯一同时拿到这四家投资的具身智能公司。仅 2026 开年的 A++ 轮，就融了 10 亿元。

四家大厂在这个赛道罕见地没有互相等着，而是一起向同一家公司砸钱。

前段时间，自变量发布了全球首个基于「世界统一模型」（World Unified Model，WUM）架构的具身基础模型 WALL-B。35 天后，搭载 WALL-B 的新一代机器人将首批进入真实家庭。

自变量 CEO 王潜判断：「今天在全世界范围内，没有任何一台机器人可以在没有遥控操作的情况下，独立完成大部分日常家务。」

宇树科技创始人王兴兴也持类似看法：机器人在预设场景中成功率趋近 100%，一旦场景变化或出现从未见过的事件，成功率断崖式下跌。他认为机器人做家务还需要 3 到 5 年。

也就是说，全行业的共识是——现在还不行。但所有人还在拼命往前冲。这中间的逻辑，我们从技术架构说起。

自变量 CTO 王昊在发布会上做了一个类比。

M1 之前，CPU、GPU、内存各自独立，数据搬运产生延迟和损耗；苹果用统一内存架构让所有处理单元共享同一块内存，性能因此跃迁。

VLA（视觉-语言-动作）架构就像 M1 之前的电脑：视觉模块、语言模块、动作模块各自为政，数据在模块之间搬来搬去，每搬一次就丢一次信息。视觉学到的丰富信息，传到动作模块时只剩一个模糊的摘要。这是自变量过去一年在家庭部署中实地摸到的天花板。

WUM 则把视觉、语言、动作、触觉、物理预测全部放进同一个网络，从零开始联合训练。这样，机器人看到杯子的同时就在计算怎么抓；感受到重量的瞬间同步调整力度。

与此同时，模型内置了对重力、惯性、摩擦力的「世界观」——桌边有一个半悬空的盘子，即便从未见过，它也能推断会掉，主动推回桌面。

这是零样本泛化的基础，意味着机器人不必为每一个家庭重新训练。

而王昊在发布会上反复强调的另一件事是数据。「实验室里的数据是能用但低价值的『糖水数据』，真实家庭的数据则是难采集但高价值的『牛奶数据』。」

这句话解释了一切：为什么自变量执意在保洁阿姨身边部署一台动作迟缓、远程遥操、还会卡机的机器人。

不是为了让你家变干净。是为了让机器人变聪明。

太平洋彼岸的 Figure：10 万行 C++ 代码，被 1000 小时人类动作数据替换

同样在押注数据的，是 Figure。

最近，Figure 发布了一段视频。两台 Figure 03 人形机器人在剪辑后的两分钟内完成了一整套卧室复位动作：开门，挂衣服，把耳机放回架子，合上一本书，把垃圾扔进脚踏垃圾桶，把椅子推回桌下，配合铺好一张床。

其中被反复转发的镜头是机器人单腿支撑、用另一只脚去踩垃圾桶的踏板。这个动作需要同时完成重心转移、脚踝精准控制和手部操作，是 loco-manipulation（移动操作）领域的硬骨头。

这套系统跑的是 Vision-Language-Action 模型，名叫 Helix-02。

Helix-02 采用「System 0/1/2」三层架构：System 2 慢速推理目标和任务序列，System 1 以 200Hz 的速度将感知转化为全身关节指令，System 0 负责底层基础控制。这种分层设计让机器人在搬运易碎物品时能边走边保持稳定握持，甚至在双手被占用时，用臀部顶上抽屉、用脚抬起洗碗机的门。

Figure 把过去十万余行手写的 C++ 控制代码替换成了一个端到端的「omni-model」，从像素直接算出力矩。按照 Figure 官方的描述，这是单一学习神经网络在多人形机器人协同动作控制上的首次展示。

两台机器人之间没有共享规划器，没有消息通信，没有中央协调。它们各自带着摄像头，靠看对方的动作来推断对方意图。有点像两个人一起叠被单时，通过手的移动猜测对方下一步的拉扯方向。

Figure CEO Brett Adcock 计划在 2026 年底把 Figure 03 送进「精选家庭」，目标售价 2 万美元以下，月租 600 美元。但他也承认，机器人在自己孩子附近时，他还是会「盯着」。

——做机器人的人自己都不敢完全放手。这大概是对「家庭场景有多难」最诚实的注脚。

另一家值得留意的是挪威的 1X Technologies。其位于加州海沃德的 NEO 工厂于 2026 年 4 月启动，约 5.4 万平方英尺，是美国首座全流程大规模制造人形机器人的工厂，获 OpenAI 资本加持。NEO 定价 2 万美元，月租 499 美元，首批 1 万台产能在五天内全部售罄。

相比之下，波士顿动力按下了暂停键。Atlas 明确聚焦工业场景，CEO Robert Playter 预测人形机器人要 5 到 10 年后才能真正走进家庭：「急着进军家庭市场或许是一个策略上的误区。」

一侧是五天售罄的狂热，一侧是 5 到 10 年的冷静预判。分歧之大，恰恰说明谁都没把握，但谁都不敢不下场。

为什么全世界还在抢着做

既然行业判断从 3 年到 10 年不等，为什么还要抢？

关键在于数据。

过去，机器人变强靠的是工程师写更好的代码。现在，靠的是吃进更多更好的数据。家庭场景不只是一个「应用市场」，而是一座数据矿。

a16z 的分析指出，工厂里的任务是重复的、有边界的，而家庭里充满了「never before seen」的情况。这种长尾，过去是 bug，现在变成了 feature。

这就解释了 149 元三小时为什么不亏：

货拉拉运输、工程师工时、阿姨成本——账面上 149 元远低于成本。但每一户托马斯白家的三小时，都是无法在实验室复现的真实长尾数据；服务的下限由阿姨兜底，所以即便机器人卡机两次、衣服叠得像揉过的报纸，用户体验也不至于崩盘。

用户以为自己买了保洁服务。实际上，他们在给机器人当老师。而 149 元，是学费补贴。

真正改变家务的机器人，恐怕不会一夜之间冒出来。

它会先笨拙地走进一户深圳的客厅，叠不好衣服，被工程师盯着，被阿姨兜底，被某个付了 149 元的用户半好奇半挑剔地观察一下午。第二天，再来一户。

一万户之后，那台盘式机器人，或许才会真的把衣服叠整齐。

封面来自：托马斯白（背景经 AI 处理）

我们正在招募伙伴

📮 简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。