149 元叫了个保洁,来了三个人伺候一台机器人,超值
答:一个阿姨 + 一个工程师 + 一台重逾百公斤的盘式机器人,上门服务三小时。这个配置放在 58 到家的订单页上,一度让人怀疑是不是系统 Bug,少了打了一个零?


托马斯白就是带着「这不可能不是坑」的心态下的单。5 月 10 日上午十点,门铃响了。门外站着三个人和一个机器人,货拉拉司机推着机器人,工程师背着工具包,阿姨系着围裙。
阵仗不小,然后呢?
工程师的主要工作是盯着急停按钮
机器人背后挂着一台 4K 无线投屏设备,经 5G 路由把画面同步到几公里外的远程操作员屏幕上,大部分动作都是远程遥操完成的。
机器人卡机了两次,工程师上前调试重启;剩下的时间他的主要工作是站在机器人后面,盯着那颗红色急停按钮。
机器人过不了门槛,所以只负责客厅。
三个小时里,它拎起倒地的书包、拉上拉链(夹了 3 次才成功)、把三个书包摞成一摞。叠了五六件衣服,每件耗时 5 到 10 分钟,叠完像揉过的报纸。茶几杂物归类丢进垃圾桶,餐桌杂物码成半桌,临走把门口的鞋摆齐。
阿姨则收拾厨房、厕所、卧室。托马斯白说,那位「附赠」的阿姨兢兢业业,这次体验的下限被她拉得很高。

总结来说,机器人负责表演,阿姨负责兜底,工程师负责盯着别出事。
这 149 元的服务,来自自变量机器人与 58 到家今年 3 月在深圳上线的合作项目。
更多体验细节欢迎收听托马斯白播客「脑放电波」🔗https://www.xiaoyuzhoufm.com/episode/6a01e2901b7bd50295f0ee49?s=eyJ1IjoiNWZjNGJiNzZlMGY1ZTcyM2JiM2Q1YmM5In0%3D
但你可能低估了这台「叠不好衣服的机器人」背后的资本阵容。
这家成立两年多的公司,在过去半年里把阿里、美团、字节跳动、小米四家互联网大厂罕见地拉到了同一张投资名单上,是国内唯一同时拿到这四家投资的具身智能公司。仅 2026 开年的 A++ 轮,就融了 10 亿元。
四家大厂在这个赛道罕见地没有互相等着,而是一起向同一家公司砸钱。
前段时间,自变量发布了全球首个基于「世界统一模型」(World Unified Model,WUM)架构的具身基础模型 WALL-B。35 天后,搭载 WALL-B 的新一代机器人将首批进入真实家庭。
自变量 CEO 王潜判断:「今天在全世界范围内,没有任何一台机器人可以在没有遥控操作的情况下,独立完成大部分日常家务。」
宇树科技创始人王兴兴也持类似看法:机器人在预设场景中成功率趋近 100%,一旦场景变化或出现从未见过的事件,成功率断崖式下跌。他认为机器人做家务还需要 3 到 5 年。
也就是说,全行业的共识是——现在还不行。但所有人还在拼命往前冲。这中间的逻辑,我们从技术架构说起。
自变量 CTO 王昊在发布会上做了一个类比。
M1 之前,CPU、GPU、内存各自独立,数据搬运产生延迟和损耗;苹果用统一内存架构让所有处理单元共享同一块内存,性能因此跃迁。
VLA(视觉-语言-动作)架构就像 M1 之前的电脑:视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。这是自变量过去一年在家庭部署中实地摸到的天花板。
WUM 则把视觉、语言、动作、触觉、物理预测全部放进同一个网络,从零开始联合训练。这样,机器人看到杯子的同时就在计算怎么抓;感受到重量的瞬间同步调整力度。
与此同时,模型内置了对重力、惯性、摩擦力的「世界观」——桌边有一个半悬空的盘子,即便从未见过,它也能推断会掉,主动推回桌面。
这是零样本泛化的基础,意味着机器人不必为每一个家庭重新训练。
而王昊在发布会上反复强调的另一件事是数据。「实验室里的数据是能用但低价值的『糖水数据』,真实家庭的数据则是难采集但高价值的『牛奶数据』。」
这句话解释了一切:为什么自变量执意在保洁阿姨身边部署一台动作迟缓、远程遥操、还会卡机的机器人。
不是为了让你家变干净。是为了让机器人变聪明。
太平洋彼岸的 Figure:10 万行 C++ 代码,被 1000 小时人类动作数据替换
同样在押注数据的,是 Figure。
最近,Figure 发布了一段视频。两台 Figure 03 人形机器人在剪辑后的两分钟内完成了一整套卧室复位动作:开门,挂衣服,把耳机放回架子,合上一本书,把垃圾扔进脚踏垃圾桶,把椅子推回桌下,配合铺好一张床。

其中被反复转发的镜头是机器人单腿支撑、用另一只脚去踩垃圾桶的踏板。这个动作需要同时完成重心转移、脚踝精准控制和手部操作,是 loco-manipulation(移动操作)领域的硬骨头。

这套系统跑的是 Vision-Language-Action 模型,名叫 Helix-02。
Helix-02 采用「System 0/1/2」三层架构:System 2 慢速推理目标和任务序列,System 1 以 200Hz 的速度将感知转化为全身关节指令,System 0 负责底层基础控制。这种分层设计让机器人在搬运易碎物品时能边走边保持稳定握持,甚至在双手被占用时,用臀部顶上抽屉、用脚抬起洗碗机的门。
Figure 把过去十万余行手写的 C++ 控制代码替换成了一个端到端的「omni-model」,从像素直接算出力矩。按照 Figure 官方的描述,这是单一学习神经网络在多人形机器人协同动作控制上的首次展示。
两台机器人之间没有共享规划器,没有消息通信,没有中央协调。它们各自带着摄像头,靠看对方的动作来推断对方意图。有点像两个人一起叠被单时,通过手的移动猜测对方下一步的拉扯方向。
Figure CEO Brett Adcock 计划在 2026 年底把 Figure 03 送进「精选家庭」,目标售价 2 万美元以下,月租 600 美元。但他也承认,机器人在自己孩子附近时,他还是会「盯着」。
——做机器人的人自己都不敢完全放手。这大概是对「家庭场景有多难」最诚实的注脚。
另一家值得留意的是挪威的 1X Technologies。其位于加州海沃德的 NEO 工厂于 2026 年 4 月启动,约 5.4 万平方英尺,是美国首座全流程大规模制造人形机器人的工厂,获 OpenAI 资本加持。NEO 定价 2 万美元,月租 499 美元,首批 1 万台产能在五天内全部售罄。

相比之下,波士顿动力按下了暂停键。Atlas 明确聚焦工业场景,CEO Robert Playter 预测人形机器人要 5 到 10 年后才能真正走进家庭:「急着进军家庭市场或许是一个策略上的误区。」
一侧是五天售罄的狂热,一侧是 5 到 10 年的冷静预判。分歧之大,恰恰说明谁都没把握,但谁都不敢不下场。
为什么全世界还在抢着做
既然行业判断从 3 年到 10 年不等,为什么还要抢?
关键在于数据。
过去,机器人变强靠的是工程师写更好的代码。现在,靠的是吃进更多更好的数据。家庭场景不只是一个「应用市场」,而是一座数据矿。
a16z 的分析指出,工厂里的任务是重复的、有边界的,而家庭里充满了「never before seen」的情况。这种长尾,过去是 bug,现在变成了 feature。
这就解释了 149 元三小时为什么不亏:
货拉拉运输、工程师工时、阿姨成本——账面上 149 元远低于成本。但每一户托马斯白家的三小时,都是无法在实验室复现的真实长尾数据;服务的下限由阿姨兜底,所以即便机器人卡机两次、衣服叠得像揉过的报纸,用户体验也不至于崩盘。
用户以为自己买了保洁服务。实际上,他们在给机器人当老师。而 149 元,是学费补贴。
真正改变家务的机器人,恐怕不会一夜之间冒出来。
它会先笨拙地走进一户深圳的客厅,叠不好衣服,被工程师盯着,被阿姨兜底,被某个付了 149 元的用户半好奇半挑剔地观察一下午。第二天,再来一户。
一万户之后,那台盘式机器人,或许才会真的把衣服叠整齐。
封面来自:托马斯白(背景经 AI 处理)


