“机器人进家”,被自变量提速了|甲子光年


4月21日,自变量机器人举行发布会,推出新一代机器人进家庭计划。
作者|栗子
“35天后,机器人进入家庭。”自变量CEO王潜,在发布会现场做出了一个分量极重的承诺。
4月21日,自变量机器人发布新一代具身基础模型WALL-B,并宣布35天后,搭载该模型的新一代机器人将首批入驻真实家庭。与其说这是一场模型发布会,不如说,这更像是自变量第一次把“机器人进家”这件说了很久的事,压缩成了一个清晰的倒计时。

机器人进入家庭,一直是具身智能行业最诱人的一句话。它所对应的,不只是一个新场景,也不只是一个新的商业想象,而是具身智能终极的落点:一个真正能走进客厅、厨房和卧室,与人共同生活、共同劳作的机器人,才算得上具身智能从概念走向现实的真正跨越。
但所有人也都知道,家庭始终是机器人最难进入的地方。
舞台、展厅和实验室可以制造惊叹的动作,家庭却不会配合表演。那里没有标准工位,没有固定流程,没有一万次重复后仍然不变的工况,甚至没有哪一分钟是完全可预测的。地上的拖鞋、没收拾的书包、随时会打翻水杯的猫、狭窄的过道、光照变化的厨房、材质各异的桌椅和地毯,这些对于人类来说是生活的纹理,对机器人来说却是最复杂的变量。
王潜在发布会上说得很直白:工厂里,一个动作可以重复一万次;家庭里,一万个动作,每个可能都只做一次,每次条件都不一样。
也正因此,家庭不是机器人最后才去的地方,反而很可能是尽早必须面对的地方。因为那里不是展示区,而是真正的考场。自变量这场发布会,真正回答的也不是“我们又做出了什么新模型”,而是把家庭从概念口号拉回到产业进程里。它的意义在于,它把具身一个长期悬而未决的问题提前摆上桌面:模型究竟应该先在相对确定的场景里追求完美,还是应该尽早进入最复杂、最真实、最不受控的生活现场,在问题中成长、在反馈中进化。
某种意义上,这不是一次单纯的产品发布,而更像是一次路线表态——家庭,不再只是终局想象,而开始成为推动行业继续往前走的现实引擎。

1.这个时间点进家庭,节奏刚好

关于机器人何时进入家庭,行业里其实一直存在两种思路。
一种思路认为,只有等模型真正具备足够成熟的通用性或者说泛化能力后,家庭场景才值得考虑;另一种思路则更激进,认为终局场景恰恰应该尽早进入,因为只有真正进到最复杂的现实中,模型和产品才会暴露出真正的问题。你的机器人到底理解世界到什么程度,实验室不会完全告诉你,家庭才会。这个判断,在自变量的选择上体现得非常明显。
从表面看,自变量是在“提速”机器人进家。但从更深一层看,它其实是在承认一个现实,家庭并不是等模型完全成熟以后才值得去的终点,而是推动模型继续成长的沃土。
这也是自变量一再强调,家庭与工业是两类“极端相反”的场景的核心原因。工业场景相对封闭、固定,对速度和准确率要求极高。而家庭场景则开放、碎片、极度复杂,对泛化性的要求近乎苛刻,后者才是模型能力真正的用武之地。换句话说,家庭才是基础能力的锻造场。
这种判断,并不是纸面推演出来的,是研发与应用端共同得出的结论。
作为国内具身智能模型派的代表企业,自变量始终致力于让模型在真实环境中处理复杂问题。前不久,自变量与58同城合作,将搭载WALL-AS模型的机器人真正送入家庭,与保洁阿姨协同作业。在真实部署中,自变量看到了VLA架构的“局限性”——它可以模仿训练数据中的轨迹,却无法真正理解物理世界的规律;它在看似标准的任务里还能完成动作,但当环境、光照、材质、空间结构稍微发生变化,能力就会快速衰减。
真实场景暴露出一个模型之外非常重要的问题--训练数据。
限制机器人进家的,不只是模型结构的局限,还包括数据这一模型认识这个世界的基础。实验室数据干净、稳定、可控,适合建立基本能力,却和真实生活有着天然的距离。王昊把这类数据比喻为“糖水数据”——可以吃饱,但不够有营养;而真正让机器人生长出泛化能力的,是来自真实家庭、真实扰动、真实混乱中的“牛奶数据”。
这个视角与知名的家庭机器人厂商1X technologies一致,其CEO Bernt Øivind多次在公开场合表示“智能需要多样性”“如果你在汽车工厂,你基本上是在一遍又一遍地做同样的事情。你没有在学习新东西”。
从这个角度看,自变量此时宣布“35天后进入家庭”,节奏并不冒进,反而恰好踩在了一个关键节点上:模型已经沉淀出最基础的能力,可以支撑机器人开始在家庭里做事;而家庭这个场景本身,又恰恰能为模型提供最有价值、最难替代的数据回流。它既是目标,也是训练场;既是应用场景,也是数据矿场。
所以,自变量此时选择进入家庭,没有一味的试图证明机器人可以进家了,而是为了更彻底地回答另一个问题:机器人怎样才能真的学会在家里生活。一言蔽之,家庭场景为真正的模型成长提供了必要的“数据导入”。

目前自变量团队已进入数百个志愿者的真实家庭进行训练,这些真实家庭场景数据的任务的丰富程度、复杂度与数据价值是绝对优势。模型架构可以copy,论文可以复现,但这些实打实进入真实家庭的数据是脏活累活,必须要用这种笨方法去“采集”。
尤其重要的是,他们并不把数据采集、模型训练、部署评测割裂成几个线性环节,而是在机器人进入真实环境后,通过人机协作、在线回流,让部署、评估、学习几乎在同一时刻发生。这意味着,自变量所谓的“进家庭”,并不是等一个完美产品定型后再推向市场,而更像是让一个已经具备基础能力的机器人,正式进入一个能持续反馈、持续打磨、持续学习的系统里。
换句话说,自变量的底气是形成并夯实数据飞轮闭环:从真实环境中获取数据,在真实任务中暴露问题,再通过真实回流不断修正模型。模型、数据、部署和迭代,不再是割裂的,而是被拉成了一整条链路。王潜在媒体采访中提到,他们希望在未来两到三年里,实现物理世界里的“Aha moment”。如果说语言模型的转折点发生在ChatGPT那一刻,那么机器人进入家庭,也许正是具身智能寻找这个“Aha moment”的必要路径之一。
2.自变量的底气,来自于重写“大脑”
“机器人进入家庭”这件事,过去常常更像一种愿景,像一种写在PPT里的终局想象。真正能把它说成明确日期、明确动作、明确计划的企业,并不多。
这也是王潜那句“35 天后进家庭”之所以分量极重的原因。它不是一个模糊的“敬请期待”,而是一个明确的交付节点。自变量敢把时间表说得这么硬,背后的底气,来自于两层:一层是模型架构的改写,一层是长期沉淀下来的家庭数据。
先说模型。自变量这次发布的WALL-B最大的特点,是它不再沿用VLA视觉、语言、动作相对分层、相对拼接的处理方式,而是用“世界统一模型”架构,把视觉、语言、动作、物理预测等能力,从第一天起放在同一个网络里联合训练。王昊在发布会上用了一个很形象的比喻:这有点像苹果从传统分离式架构转向统一内存架构,不是让数据搬运得更快,而是干脆减少“搬运”本身。
这套架构,可以概括为三项能力:
第一,是原生多模态。过去的机器人往往更像在做“传话游戏”:视觉先看见,语言再描述,动作最后执行,信息在模块之间一层层传递,也在一层层损耗。自变量希望WALL-B从一开始就把视觉、听觉、语言、触觉、动作等多模态信息同步训练,让它不再靠“转述”理解世界,而是原生地、多通道地感知世界。
进一步说,这还带来一种他们强调的“原生本体感”——机器人不必时时依赖外部建模,就能内在地感知自己多高、多宽、手能伸多远、能不能通过一扇门、能不能够到一个物体。对家庭场景来说,这种能力非常重要,因为家庭里的空间限制、家具尺度、物体摆放本身就是动态变化的。
第二,是物理世界的“世界观”。过去的机器人可以识别一个盘子,却未必理解“盘子悬在桌边会掉下去”这件事;可以看见杯子,却未必理解杯子里有水、拿取时需要调整力度。这种差别,看似细微,实则是“会识别”和“会理解”之间的分界线。
自变量的WALL-B就是让机器人第一次真正对重力、惯性、摩擦力、速度等物理规律建立内生理解。也正因为物理规律是跨场景稳定存在的,这也是机器人零样本泛化真正的基础,不用每到一个新家都要重训,而是在任何一个陌生家庭里,都能利用相同的物理常识去应对新场景。
第三,是与世界交互并自我进化。这或许是最具想象力的一点。当前多数机器人在任务失败后会直接停止,等待工程师或远程操作员接管;而WALL-B,则更像一个能在失败中调整策略、在真实环境中继续尝试的智能体。
王昊把它类比成小孩学骑自行车、学用筷子的过程:不是先等所有规则都学会了再进入现实,而是在现实中不断摔、不断试,再把成功的经验内化成能力。对一个要进入家庭的机器人来说,这意味着它不能只是“执行命令”,而要开始具备一种长期生长的能力。

归根结底,WALL-B带来的底气,在于它开始让机器人学着原生多模态数据,多维度感知世界,也感知本体,进而真正去理解物理世界的规律。最终,在持续理解世界、适应变化、并在交互中不断变得更聪明。
3.进入家庭是一次全方位的挑战
机器人进家庭,从来不是一个纯技术问题。
技术只是门票,决定机器人能不能留下来成为家庭成员的重要原因之一,是对用户隐私的保护。
这几乎是所有家庭机器人都会面对的一个基本问题:当一个会看、会听、会动、甚至会不断学习的机器进入私密空间——“家”,人们最自然的顾虑,是它会不会泄露隐私,会不会在不该执行的时候执行,在不该看见的时候看见。
“承诺是便宜的,用户信任才是最贵的”,王潜给出了三重方案:
第一,视觉脱敏。机器人在设备端对原始图像进行实时打码处理,原始图像不离开设备,机器人“看到”的已经是去除个人特征后的场景数据;
第二,透明授权。用户必须主动按下同意键后方可开机,不存在默认同意。自变量没有那种互联网式的“霸王条约”;
第三,用途限定。数据绝不共享第三方,机器人只认一个主人,发现可疑指令立即锁定。
这些设计看上去像是隐私合规条款,但放在家庭场景里,它们其实更像一种产品哲学:机器人必须默认克制、必须先获得许可,再开始工作。进入家庭的特殊性,就是让一个“知道边界”的机器被生活接纳。

当然,即便能够解决用户隐私泄露的担忧,自变量还会面临不少现实障碍。但正如王潜所说,机器人确实不能满足所有期待,也确实存在弊端,但不能因为恐惧出错就不敢前行。在真实场景直面问题,才是解决问题的第一步。
这一点在媒体采访里也得到了更坦白的补充。当被问到机器人5月进入家庭是否意味着它已经能完全靠AI自主完成所有任务时,王潜的回答并不回避现实。他承认,这并不是一个百分之百全都能靠 AI 来做的过程,必要时仍需要人的兜底、接管和安全保障。这种务实的表态,反而是有价值的。他没有把“进家庭”包装成一个已经彻底圆满的童话,相反远程协作和人为兜底反而确保了那些 corner case 能够得到及时收集与解决。
总之,机器人进入家庭这条路不会轻松。但自变量却正在一点点推动它开始迈向“一个家庭成员的诞生”新阶段。
从行业视角看,这场发布会真正值得记住的,并不是WALL-B某一个具体的技术名词,而是自变量把家庭这个最复杂的场景,重新摆回了具身智能的正中央。而当一个行业开始认真讨论机器人如何进入家庭、如何被家庭接受、如何在家庭里边做边学的时候,某种意义上,真正的比赛才刚刚开始。
(封面图及文中配图来源:自变量)

END.




