Aether：几何感知统一世界模型 | CCCF精选

发布时间：2026-05-30来源：中国计算机学会

编者按：在构建具备类人水平空间理解与推理能力的智能系统中，确保模型学习到的世界表示不仅准确而且稳健，是实现可靠行为和安全决策的关键。对齐研究关注于让人工智能（AI）系统的内部目标与外部任务或价值观保持一致，这一挑战在具有复杂结构、跨任务推理的大模型中尤为突出。受此启发，Aether 框架引入了几何感知的统一世界建模理念，从模型表现的综合稳健性和泛化能力角度系统探讨了大模型在无真实数据环境下的行为规律。具体而言，Aether 不仅在合成四维几何数据上实现了重建、动作条件视频预测及视觉规划等多任务协同优化，还揭示了其从合成到真实世界泛化过程中表现出的内在“弹性”现象，即模型倾向于维持其几何及动态表示的结构一致性，这种结构一致性可被视为一种特定形式的对齐稳健性。Aether 通过任务交织式特征学习与几何先验约束融入，使模型在多任务目标间维持协同一致性的同时，具备面向真实未知数据的零样本泛化能力。这为我们理解对齐过程中的分布回归与稳定机理提供了重要启示，也在合成—真实域转移的研究场景下，填补了世界模型稳健性方面的机制认知空白。

现在订阅CCCF12期纸质刊，随刊赠送CCCF20周年纪念帆布包一只，数量有限，赠完即止。

在构建具备类人空间感知与推理能力的人工智能(AI)系统中，如何实现对真实世界几何结构与物体动态变化的全面理解，是一个长期存在且至关重要的挑战。在自主机器人导航、虚拟现实环境交互、智能体动态规划等任务的应用场景中，模型不仅需要识别当前环境的几何布局，还需要预测未来的状态变化，并在目标条件下制定合理的行动策略。然而，现有大多数世界建模方法通常只聚焦某一个单一任务，例如几何重建或视频预测，难以跨任务整合几何理解、动态预测以及规划执行，限制了模型在复杂现实场景中的泛化能力与实际应用潜力。

传统的几何重建方法，如基于多视角几何(multiple view geometry, MVG)技术等，在静态场景中可以实现较高精度的深度与相机位姿估计，但在处理动态场景中的空间变化和连续运动时表现不佳，且难以与生成式模型的强表达能力结合。而当前流行的视频预测模型则更多关注视觉连续性，忽略了真实世界的几何约束与空间一致性，使预测结果缺乏物理合理性和可执行性。与此同时，目标条件视觉规划方法多侧重学习策略映射，缺少对环境动态和几何结构的深刻理解，因此其生成的行动序列往往在真实世界任务中难以被有效执行。

为解决上述问题，研究人员尝试通过协调几何信息与生成模型的优势，来提升世界模型的通用性和可解释性。本研究给出了一种尝试性的统一框架Aether，它旨在通过联合学习几何重建、动作条件视频预测和目标条件视觉规划这3项核心能力，实现跨任务的协同知识共享。如图1所示，该框架不仅能够在训练阶段充分利用包含彩色纹理信息与空间深度(RGB-D)几何信息的合成视频数据学习几何与动态表示，而且能够在从未见过的真实世界数据上实现零样本泛化。即使未进行真实世界数据训练，其在重建任务中的表现也可与特定任务模型相当，甚至更优。

图1 Aether方法框架

Aether框架的提出反映了当前世界模型研究的2个重要趋势：一是通过融合几何理解与生成模型来增强空间一致性与物理合理性；二是利用多任务训练策略打破单一任务的孤立限制，从而提升模型的泛化能力与任务协同性。然而目前这类方法在实际应用中仍面临一些问题，例如：对高复杂动态场景的建模细节缺乏进一步探索；如何在真实动态系统与机器人控制任务中进行有效部署。本研究将围绕上述问题展开叙述。

整体架构设计

Aether的整体架构围绕统一世界模型的多任务学习目标构建，如图2所示。该框架包含3个主要模块：四维（4D）动态几何重建模块、动作条件视频预测模块和目标条件视觉规划模块。这3个模块通过共享特征表示和任务交错学习策略进行训练，从而实现几何信息、动态预测和规划策略之间的知识共享与协同增强。Aether的核心假设是将几何信息和世界动态理解作为世界模型的基础表示，有助于生成物理合理的预测结果，提升对未见数据的泛化能力。其中，4D动态几何重建模块负责从视频序列中恢复场景的三维（3D）结构和相机运动，动作条件视频预测模块用于在给定当前观察及动作条件下预测未来全局状态，而目标条件视觉规划模块则根据观察和目标图像输出一组可执行动作以达到目标状态。3个模块共享统一的编码体系，从而实现跨任务知识交互，提升整体性能。

图2 Aether整体架构

4D动态几何重建

为了让模型具备对真实世界几何结构的理解能力，Aether在几何重建模块中引入了对“空间+时间”信息的显式建模，如图3所示。该模块的输入是一段时序视频数据，输出包括对应帧的深度图与相机姿态估计。通过这种结构，模型能够捕捉场景在3D空间中的几何关系及其随时间变化的动态情况。

图3 重建结果可视化

在实现细节上，Aether利用合成RGB-D视频数据进行训练，每条训练样本同时包含图像序列、深度标签和相机轨迹。4D动态几何重建模块通过将预测深度与真实深度之间的误差以及相机姿态估计误差最小化，使模型在几何理解上获得准确表达。该模块学习到的深度和位姿信息不仅用于重建场景，还作为后续任务的隐式条件输入，帮助模型理解时空变化。为了适应不同场景尺度的变化，Aether对几何表示进行了尺度不变处理，并对深度估计和相机轨迹的编码进行了规范化，以确保几何信息在不同任务间能够被一致地解释和使用。该设计使模型在现实世界场景中即使遇见没有见过的真实数据，也能实现令人满意的几何结构推断结果。

动作条件视频预测

动作条件视频预测模块旨在在给定当前观察图像和对应动作条件的情况下，生成未来连续帧。与传统仅基于视觉连续性的生成模型不同，Aether将几何感知动作空间（即相机轨迹或动作序列）作为视频预测条件，使预测过程不仅考虑了视觉变化，还整合了动作对场景影响的几何理解。

具体而言，在该模块中，模型将当前时刻的图像特征与动作条件编码一同输入生成网络，并通过联合优化的方式预测未来序列。动作条件通常以相机轨迹或机器人运动命令的形式表示，并融入生成器的条件向量中，从而加强模型对场景动态的推理能力。由于动作条件本质上是几何意义上的变化信息，这种设计可以让模型在预测过程中保持物理一致性。

此外，Aether使用一种条件生成机制，使预测过程能够在动作条件上灵活切换，适应不同类型的动作序列输入。本模块的训练目标包括重建未来帧的像素级误差以及在几何特征空间的一致性损失，从而确保预测结果不仅视觉逼真，而且在几何上合理。

目标条件视觉规划

目标条件视觉规划模块负责从观测图像与目标图像对中推断出一个可执行的动作序列，使系统能够从当前状态逐步接近目标状态。与传统规划方法侧重动作策略学习不同，Aether将该任务视作一种条件生成任务，并将视觉规划融入统一的生成模型框架中。在实现上，该模块首先将观察状态图像和目标状态图像编码为潜在空间特征，然后与几何动作表示结合，作为规划条件输入生成网络。模型输出一组描述动作序列的向量，这些向量代表能够在实际环境或模仿环境中执行的运动轨迹。通过这种方式，视觉规划不仅依赖当前视觉信息，还整合了几何动态理解，提升了规划路径的可执行性和物理合理性。规划模块在训练过程中主要优化2个目标：一是使生成的动作序列能够使最终状态图像与目标图像尽可能接近；二是确保动作序列在几何空间中形成连贯路径。这些目标通过包括状态匹配损失和路径连贯性损失等一系列损失函数共同驱动。图4为行为规划结果可视化示意。

图4 行为规划结果可视化

多任务联合学习机制

为了将以上3项任务有效协同并共享知识，Aether采用了一种任务交错特征学习(task-interleaved feature learning)策略。在训练阶段，不同任务的训练样本会被随机组合，并共享统一的编码与生成网络。这样一来，各任务之间可通过共享的特征空间实现知识迁移，增强了模型在未见数据上的泛化能力。

多任务联合学习机制不仅包括网络参数的共享，还通过融合多任务损失函数实现对共同目标的优化。具体来说，用于几何重建的视频深度和姿态误差、用于视频预测的序列一致性损失，以及用于视觉规划的路径匹配损失都会在同一训练迭代中进行优化。这种训练方式使模型在处理复杂现实场景时能够综合各类任务目标，提升整体推理能力。

此外，Aether还引入了任务权重调整机制(task weighting)，用于平衡不同任务的损失贡献，使某一任务的过度优化不会导致其他任务性能显著下降。这样既保证了模型在几何重建上的精度，也提升了视频预测与规划任务的稳定性和一致性。

统一建模的优势与启示

本研究通过引入任务交错学习和几何感知表示，首次实现了几何重建、动态预测与视觉规划三大任务的统一学习框架，从而提升了世界模型整体的任务协同性。一方面，几何构建任务对深度与相机轨迹的学习有助于视频预测模块理解真实场景的时空变化规律；另一方面，这种几何理解能够有效指导视觉规划任务的行动推理流程，实现从感知到行动的跨模块知识共享。值得注意的是，模型在完全不依赖真实数据的条件下仍能实现良好的合成—真实泛化，这表明几何意识可以作为增强世界模型泛化能力的重要先验知识。在一些真实场景的测试中，Aether的重建与预测任务表现超出了只有视觉一致性条件的基线模型。

综上所述，Aether的方法设计核心在于构建一个统一的世界模型，通过共享编码器与任务交错学习机制，使几何重建、视频预测与视觉规划3个任务能够在同一框架下协同优化。几何信息的显式建模不仅提升了模型对空间结构的理解，还增强了模型对时间动态和规划任务的推理能力，从而实现了合成数据训练下对真实场景的零样本泛化。

尽管Aether在多个任务上表现突出，但其存在的一些局限性仍值得关注和研究：

复杂动态世界的鲁棒性　当前实验主要在合成的视频数据上训练，在现实中存在诸如光照、遮挡、快速运动等更复杂的干扰因素，这些干扰因素尚未在实验中充分涵盖，未来需要进一步验证模型在更复杂现实环境下的鲁棒性。

真实世界微调与效率　虽然Aether实现了合成—真实的泛化，但在某些高精度任务下引入少量真实数据微调仍可进一步提升其性能。此外，当前统一模型的计算资源消耗较高，未来应探索更轻量化或分布式实现方案以适应实际部署。

行动规划的多模态扩展　目前的视觉规划任务主要依赖图像对与几何动作空间，尚未充分利用语言、触觉或其他模态信息对规划策略进行辅助，这为未来多模态统一世界模型提供了新的切入点。

朱皓怡

中国科学技术大学博士研究生。主要研究方向为空间智能。

hyizhu1108@gmail.com

贺通

上海人工智能实验室研究员。主要研究方向为空间智能、世界模型。

tonghe90@gmail.com

本文发表于2026年第5期《计算》。

点击“阅读原文”，加入CCF。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。