首次大规模真实世界验证：机器人边部署边进化，8项任务全面碾压基线

发布时间：2026-04-30来源：夕小瑶科技说

家人们，不得不承认，这一年来，具身智能是真的越来越出圈了。

从春晚穿着大花袄扭秧歌的机器人，到被万人围观的机器人马拉松，今年真是我最真切感受到机器人走近生活的一年——而且走得特别近。

作为一名长期关注具身智能的科技博主，我一直期待着机器人能从实验室走到我家里稳稳当当地开工干活。

最近和一位行业内的朋友深聊，他聊到一个研发成本公式：

研发成本 ≈ 真机调试时间 × 硬件折旧 × 数据未利用率

真机调试不仅耗时，风险也大，机器人摔一跤，那可都是真金白银。而且目前的仿真环境还存在虚实偏差，还不能完全替代真实调试。

更大的问题是，数据利用率提升缓慢。

虽然机器人在真实场景中每天产生海量数据，但那些宝贵的失败轨迹，却因为缺乏高效提炼机制，很难被转化为高价值的学习素材。

这些局限，导致机器人的进化步伐，远远赶不上复杂现实中层出不穷的长尾问题。

去年，我就关注到智元机器人提出的 SOP（可扩展在线后训练）系统，让机器人在真实部署中能边干边学。

智元研究传送门：
https://finch.agibot.com/research/lwd

最近，上海创智学院和智元具身研究中心联合发布推出了更强大的 LWD （Learning While Deploying）边部署边学习框架。论文第一作者为创智学院在读博士生，指导老师为创智学院导师，智元首席科学家罗剑岚。我第一时间啃完论文，今天给你们讲透！

传送门：
https://finch.agibot.com/research/lwd

◈从「人喂数据」到「数据飞轮」

传统的机器人训练流程是单向的：人收集数据 → 训练模型 → 部署 → 结束。模型出厂即定型，部署之后不再进化。如果表现不行，回到起点让人再收集一批数据重新训练。

这个流程有一个根本性浪费，机器人在真实世界中产生的大量失败轨迹、半成功的尝试、人类临时接管的纠偏操作——这些「非完美数据」在模仿学习范式下全是废料。

罗剑岚团队提出了LWD，把这个单向流程变成了一个强化学习驱动的闭环飞轮。

机器人集群在真实任务中执行 → 积累所有类型的交互经验 → 经验汇总到云端 → 强化学习持续更新策略 → 更强的策略重新部署到集群 → 飞轮再转一圈。

在LWD的强化学习框架里，成功的轨迹是正样本，失败的轨迹是负样本，半成功的尝试提供了中间状态的价值信号，人类介入的纠偏记录标注了哪些环节容易出问题——它们全都会被飞轮吸收进策略的下一轮更新。机器人搞砸的每一次操作，都变成了它变强的素材。

而且飞轮的转速跟集群规模正相关——机器人越多、跑的时间越长，积累的经验越丰富，学习越快。跟自动驾驶的数据飞轮是同一个逻辑。

听起来很直觉，但想在真实世界的大规模部署中跑通强化学习，技术上远没有这么简单。

因为多机器人、多任务、持续部署这种场景，跟实验室里的RL面对的是完全不同的技术困境。

第一，数据异质且持续漂移。

不同机器人在不同环境下执行不同任务，产生的数据分布差异极大。每次策略更新后，产生的轨迹分布也在变，这种持续的分布偏移，会让标准RL方法的价值估计迅速失准。

第二，奖励信号极度稀疏。

长程操作任务（比如泡功夫茶，3-5分钟连续操作），中间大部分步骤没有明确奖励反馈，只有最终成功或失败才有信号。

第三，VLA的动作生成机制跟传统RL策略梯度不兼容。

这一点很关键。当前主流VLA策略的动作是通过flow matching多步生成的，没法直接算动作似然，也就没法直接用策略梯度。硬做反向传播穿越整个生成链，计算代价极高且数值不稳定。

LWD针对前两个难点设计了DIVL（价值评估模块），针对第三个难点设计了QAM（策略优化模块）。下面拆这两个核心技术。

一个前置知识：LWD里机器人不是逐帧决策的，而是以动作块「Action Chunk」为单位。

一次规划未来H步的连续动作序列，执行完再规划下一组。后面所有的价值评估和策略优化都是在这个「动作块」粒度上操作的。

机器人执行了一组动作之后，怎么知道这组动作好不好？

◈DIVL—价值评估模块

传统的隐式Q学习（IQL）是维护一个标量Q值函数，但是在LWD面对的fleet-scale场景，来自不同机器人、不同任务、不同时期策略的轨迹全混在一起，标量回归容易过拟合，加上长程任务中奖励极度稀疏，标量估计的不确定性会被进一步放大。

DIVL 的解决方案在于改变评估方式：它不再输出一个单一的固定分数，而是学习一个完整的价值概率分布，从而提供一个包含不确定性的价值置信区间。

具体来说，它通过以下四个核心设计来实现：

1. 分类式价值分布

DIVL 为每个状态维护了一个价值分布模型，通过训练预测未来回报落在各个离散区间的概率：

2. 分位数自举目标

在计算时序差分目标时，DIVL 从预测的价值分布中提取上分位数。这种方法既继承了IQL向高价值靠拢的原则，又能更好地应对奖励稀疏和真实数据分布偏移的挑战：

3. 自适应策略

利用预测分布的归一化熵 H(s) 作为不确定性信号,当面对价值分布散乱、机器人心里没底的状态时，自动调低分位数阈值以防止过度乐观；对于模型确信的状态，则使用较高的 τ 来积极寻求高回报：

4. 动态 n 步 TD 策略：

为高效学习包含数千步的复杂长程任务，DIVL 采用了动态的 n 步 TD 策略—在离线训练时使用多步更新（如10步），以加速长程奖励信号的传播；在在线部署时则切换为单步更新，以降低方差，确保学习稳定。

◈QAM —策略优化模块

有了精准的价值评估，下一步是策略改进。

当前先进的视觉-语言-动作模型，通常采用流匹配作为其动作生成器，该模型从一个简单的纯高斯噪声 a^0 出发，通过一个学习到的向量塑造成连贯的动作 a^1：

其中，参数 w从0到1，代表了从噪声到完美动作的整个生成轨迹。

如果直接用传统的反向传播来优化这个多步生成过程，计算量极大且数值不稳定，如同逆推一条湍急河流中每一滴水的轨迹。

为此，LWD 框架引入了基于伴随匹配的Q学习 (Q-learning with Adjoint Matching，QAM)，将策略优化转化为一个沿生成轨迹的局部回归目标：

这个目标训练的关键在于终端条件,它由 DIVL 训练出的价值评估网络提供的梯度进行初始化：

QAM 这种方法不再费力地穿越整个动作生成链进行反向传播，而是直接在动作生成的终点，利用价值网络算出一个指引方向的梯度。

这个梯度如同一个向导，牵引着整条动作生成轨迹向更高回报的方向平滑偏移。

这样一来，生成式动作网络就能平滑改进，摆脱了对显式动作似然计算的依赖。机器人真正做到了“学会新本事，不忘旧技能”。

◽实战成绩单

研究团队在 Agibot G1 双臂机器人上跑了 8 项高难度任务，分两组：

商超补货（4项）
常温货架补货、冷柜补货、开门补货、纠正摆放错误。主要考验对商品的语义识别和指令理解。
长程操作（4项）
泡功夫茶、调鸡尾酒、榨果汁、装鞋入盒。每项任务持续3-5分钟，包含5-7个接触丰富的物理交互子步骤——加茶叶、冲水、洗茶、倒茶、分茶，任何一步搞砸整个任务判定失败。