深度｜世界模型开始联机，00后清华博士联合英伟达发布Gamma-World，多玩家终于能共享同一个世界

发布时间：2026-05-30来源：Z Potentials

01 世界模型的单机时代，快到尽头了

过去两年，主流视频世界模型主要解决的是单智能体预测问题：给定一段动作序列，模型生成一个视角下的未来画面。Sora、Cosmos、Genie 3 等工作把画面质量、时序一致性和交互响应能力不断往前推，证明 AI 可以在一定程度上模拟一个可观看、可控制的世界。

但真实世界并不是单一主体的。

工厂产线上，一台机械臂的轨迹会约束另一台的运动范围；自动驾驶场景中，一辆车的变道会影响周围车辆的规划。多人游戏里，一个玩家的走位会改变队友和对手的决策空间；这些场景的共同特征是因果耦合：一个主体的行为改变了共享环境的状态，所有其他主体必须感知到并据此行动。

行业内已经开始向这一复杂领域进军，并探索出了多条极具启发性的技术路线。

Solaris 在 Minecraft 中收集了 1264 万帧多人同步数据，训练出可同步生成双人视频的世界模型。这一工作验证了多视角同步生成的可行性，不过在向三人及以上场景扩展时，注意力机制的计算复杂度不可持续。

Odyssey 的 Agora-1 实现了四个玩家共享实时生成的 GoldenEye 对战世界。它的解法是解耦模拟与渲染，依赖显式的游戏引擎状态作为中间表示。这本质上退化成了一个神经渲染器，绕过了“从像素中学习物理规律”这一世界模型的核心难点。

总结来看，前沿探索为多智能体世界模型打下了坚实基础。如何在此基础上，进一步实现对称且可扩展的身份编码、高效且不依赖外部状态的跨智能体通信，以及端到端的泛化能力，成为了下一阶段的核心命题。

5 月 27 日，NVIDIA、清华大学、多伦多大学和 Vector Institute 发布Gamma-World（γ-World），没有选择把多路画面拼在一起，也没有依赖显式游戏状态，而是从位置编码和注意力机制这两个底层组件入手。直接处理多智能体世界模型中最核心的几个约束——身份如何表示而不破坏对称性，状态如何共享而保持一致，通信如何高效完成而不被算力卡住。

论文发布后，Gamma-World 很快登上 Hugging Face Papers 当日榜单第一。对一篇偏底层架构的世界模型论文来说，这个热度信号说明，多智能体世界模型正在从小众技术问题，进入更主流的 AI 研究视野。

02 一作刘芳甫：从空间智能到世界模型，一条未断过的线

Gamma-World 的一作是来自清华大学的刘芳甫，他在 2023 年清华电子系本科毕业后继续直博，研究方向为空间智能和世界模型。刘芳甫在极短的时间内构建了令人瞩目的学术履历，他在TPAMI、CVPR、ECCV、NeurIPS、ICCV、ICLR、KDD等计算机视觉与人工智能顶会顶刊上发表近三十余篇论文，Project的Github Star累计超过1万，同时也为 CVPR、NeurIPS、ICML、ICLR、ICCV、SIGGRAPH等顶会担任审稿人。

Gamma-World 之所以选择从底层重构多智能体的交互机制，刘芳甫过去几年研究主线的自然延伸。梳理他近年在各大顶会发表的几十余篇论文，可以发现一个清晰的逻辑递进：世界模型不能只停留在“生成画面”，需要理解 Agent、动作和环境的相互关系，进一步能在交互中同步演化。他早期的 CASPER 探索了因果发现，随后的 Unique3D 、Physics3D 和 ReconX 等工作系统性地完成了从 3D 物体静态生成到 4D 物理动态场景生成的推进。到了近期的 Video-T1、Spatial-MLLM和Spatial-TTT，研究重心已明确转向空间推理与模型泛化。这种对物理约束和动态交互的长期关注，为 Gamma-World 解决多智能体状态一致性问题提供了直接的理论支撑。

03 从 demo 到数据：Gamma-World 证明多人世界真的能对上

论文展示了几组场景，从简单到复杂，逐步检验多智能体世界模型需要具备的核心能力。

Minecraft 里的双人世界

在虚拟世界中，Gamma-World 生成的不是两段互不相关的第一人称视频，而是同一个世界里的两组视角。玩家 A 移动、采集、建造，玩家 B 的视角中会出现相应变化；当两人暂时离开彼此视野后，地形、物体和玩家位置仍然能在后续画面中保持一致。

双人建造——一方放置方块，另一方视角中同步出现

模型必须知道多个视角指向同一个底层状态，而不是分别生成两段看起来合理的视频。一个方块被放下后，它不能只存在于放置者的画面里；一个玩家穿过另一名玩家的视野时，时间、方位和动作也不能错位。否则，多人世界就只是分屏视频拼接，不是真正的共享环境。

机器人场景

Gamma-World 还把同一套多智能体建模方法迁移到真实双臂机器人任务中：左右两条机械臂分别被视为一个 Agent，围绕同一个桌面物体进行协同操作。生成结果中，两条机械臂的运动没有互相穿透，桌面物体的位置在两个视角中保持一致，操作过程也没有明显的空间错乱。这说明 Gamma-World 捕捉到的不是某个游戏规则的表面模式，而是一种更通用的多主体共享状态建模方式。

双臂机器人协同，左右机械臂各为一个 agent

人数扩展

Gamma-World 还有一个重点创新点，只用双人数据训练，却能在推理时直接生成四个玩家的同步画面。四路第一人称视角同时展开，每个玩家独立控制；靠近的玩家能够互相看见，远离的玩家虽然没有直接视觉接触，但共享地形和建筑仍然保持一致。

论文 Figure 5（四智能体零样本泛化）| 图注：双人数据训练，四人场景直接泛化

这三组 demo 可以看到，Gamma-World 验证的不是单点视觉效果，而是一条递进链路：在虚拟世界中对齐多个视角，在现实世界中迁移到物理协同，再从 2 人扩展到 4 人。Gamma-World 称得上是多个可控主体，在同一个可持续演化的生成式世界。

评测指标领先

在定量指标上，Gamma-World 也有出色的表现。

Gamma-World 在多人 Minecraft 环境的五类场景中，对比 Solaris[3] 和帧拼接方案，视频质量指标 FVD 和图像质量指标 FID 全面领先（两者均越低越好）。Memory 场景的 FVD 从 Solaris 的 333.8 降到 184.1，Building 场景从 448.6 降到 264.5，平均降幅超过 40%。

五类场景 FVD/FID 对比——Gamma-World 在所有场景均为最优

04 两个底层设计解开多人世界模型的三道坎

多智能世界模型到底难在哪里？

其中有绕不开三个结构性问题：跨视角一致性——玩家 A 砍掉一棵树，玩家 B 那边也必须倒；置换对称性——能力相同的智能体不应因编号不同被区别对待；扩展效率——全连接注意力随玩家数平方增长，实时交互很快撑不住。

Gamma-World 用两个核心设计一并处理了它们。

身份编码：从数轴到正单纯形

视频 Transformer 用 3D RoPE 标记 token 的时间、高度、宽度。多智能体需要第四个轴——模型必须知道「这组 token 属于谁」。这个身份标记极其容易做错。

Solaris 给每个玩家加了一个 learned player ID embedding——为每个槽位学一组特定权重。缺陷有二：模型对「1 号位」和「2 号位」有不同先验偏好，对称性被打破；人数被锁死，加第三个玩家要么重训，要么硬插一个没见过的随机向量。另一个直觉方案是给智能体分配标量相位 θ_p = p·ω，像时间步一样排在数轴上。但数轴距离跟编号差成正比——agent 1 和 agent 3 的角度差是 1 和 2 的两倍，模型会认为编号相邻的智能体更近，而对称的多人游戏里不存在这种先验。

Gamma-World 的解法：把智能体映射到正单纯形（regular simplex）的顶点上——高维空间中所有顶点两两等距的几何体（二维是等边三角形，三维是正四面体）。在 RoPE 的旋转角空间中构造 V 个这样的顶点，数学上可证明任意两点距离恒为 √(2V/(V−1))，跟选了哪两个点无关。每个智能体随机分配到一个顶点，训练时随机映射防止槽位过拟合，推理时加人取闲置顶点即可——不改架构、不学新参数、整个编码 parameter-free。

这就是两人训练、四人泛化的数学根基。消融实验直接印证：将 learned view embedding 换成 Simplex Encoding，FVD 从 256.3 降到 228.5，FID 从 32.4 降到 29.6，其他部分完全不变。

图注：线性 RoPE 给智能体施加人为顺序；Simplex RoPE 让所有 agent pair 天然等距

跨智能体通信：hub token 做中继

玩家 A 放了一个方块，这个变化怎么传给玩家 B 的生成过程？Solaris 用 dense joint attention：所有玩家的所有 token 放进同一个注意力矩阵，计算量 O(P²n²L²)。两人时尚可，但 P 是平方项——4 人翻 4 倍，8 人翻 16 倍。而且建模上有浪费：地图两端互不可见的玩家做像素级全连接，大部分算力花在传递无用信息上。真正重要的跨玩家信息——「世界状态变了什么」——是高度压缩的。

Gamma-World 引入一小组可学习的 hub token 充当「公告栏」：每个智能体只能看到自己的历史和 hub，不能直接看其他玩家；hub 可以看到所有人。信息变成两条路径 agent → hub → agent，计算量对玩家数从平方降到线性。实测 8 人场景：dense attention 延迟 17.6ms，Sparse Hub Attention 4.5ms，FLOPs 差距约 8 倍。

更有意思的是消融结果：换上 Sparse Hub Attention 后 FVD 从 228.5 降到 223.4，SSIM 从 0.830 升到 0.836——掐断直接跨玩家注意力，质量反而略有改善。全连接中大量 token 级跨玩家交互实际上是噪声，去掉后模型更好地聚焦于真正有意义的全局状态变化。

论文 Figure 3（效率对比）| 图注：Sparse Hub Attention 与 Dense Attention 效率对比——玩家越多，差距越大

三阶段蒸馏到实时推理

在此基础上，Gamma-World 用三阶段训练把模型推到实时可用：先训双向教师（全局注意力，质量最高但不能在线用），再训因果学生（时间切块 + Sparse Hub Attention，具备流式能力），最后条件蒸馏到 4 步采样——学生在自回归 rollout 下训练，每生成一块就写入 KV cache 再基于自己的历史继续推理，训练和推理分布完全对齐。最终跑到 24 FPS 实时推理：每一帧都能接收新动作并更新共享世界状态。

两个设计缺一不可。Simplex Encoding 保证身份的对称性和可扩展性，Sparse Hub Attention 保证通信效率的线性增长。有对称编码但通信 O(P²)，人数一多跑不动；通信够快但身份有偏，加人后质量会塌。Gamma-World 从位置编码和注意力掩码这两个 Transformer 最底层的组件入手，用最小的架构改动同时拿到了对称性、一致性和效率。

05 多智能体世界模型通向哪里？

多智能体世界模型打开的空间，不止画面里多出几个玩家。回到一个更根本的问题：Physical AI 为什么迟迟没有出现类似语言模型的 Scaling Law 红利？一个核心瓶颈是高质量交互数据的极度稀缺。语言数据可以从互联网上挖，但物理交互数据——一台机器人拿起杯子、另一台做出回应，一个玩家改变环境、另一个据此决策——几乎不存在规模化的采集来源。真实世界的数据产出速度，最终受限于人类时间和物理空间。

多智能体世界模型有可能改变这个等式。当模型能在共享环境中同时模拟多个智能体的交互，它就天然成为一台交互数据的生成器——多个 Agent 在虚拟世界中对抗、协作、探索，24 小时不间断地产出轨迹数据。Odyssey 在 Agora-1 的博客中专门讨论了这一点：当世界模型支持多 Agent 交互，强化学习智能体就可以在生成式环境中进行开放式的自我进化。

这也意味着 AI 内容生产的单位正在发生变化。过去生成的是一段视频、一张图像；现在生成的是一个可进入、可协作、可对抗的持续演化的环境。产出物从画面变成了世界，从单次渲染变成了持续交互。

这也是 Gamma-World 这类工作最让人兴奋的地方。我们不需要无休止地用算力去暴力拟合所有视角的像素，而是可以通过优雅的底层架构设计，让 AI 真正“理解”多主体间的因果与物理法则。从单机到联机，从旁观者到参与者。当世界模型不仅能生成逼真的光影，还能承载无限扩列的玩家与智能体在其中博弈、试错、进化时，我们或许正在见证下一代智能的诞生。

References

Gamma-World 论文：Fangfu Liu, Kai He, et al. "Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players." arXiv:2605.28816, 2026.

Gamma-World 代码仓库：https://github.com/nv-tlabs/Gamma-World ｜项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/

Solaris：Georgy Savva, Oscar Michel, et al. "Solaris: Building a Multiplayer Video World Model in Minecraft." arXiv:2602.22208, 2026.

Odyssey Agora-1：odyssey.ml/introducing-agora-1, 2026. [6] Enigma Multiverse：github.com/EnigmaLabsAI/multiverse

刘芳甫个人主页：liuff19.github.io

Hugging Face 论文页：https://huggingface.co/papers/2605.28816

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。