深度|世界模型开始联机,00后清华博士联合英伟达发布Gamma-World,多玩家终于能共享同一个世界


01 世界模型的单机时代,快到尽头了
过去两年,主流视频世界模型主要解决的是单智能体预测问题:给定一段动作序列,模型生成一个视角下的未来画面。Sora、Cosmos、Genie 3 等工作把画面质量、时序一致性和交互响应能力不断往前推,证明 AI 可以在一定程度上模拟一个可观看、可控制的世界。
但真实世界并不是单一主体的。
工厂产线上,一台机械臂的轨迹会约束另一台的运动范围;自动驾驶场景中,一辆车的变道会影响周围车辆的规划。多人游戏里,一个玩家的走位会改变队友和对手的决策空间;这些场景的共同特征是因果耦合:一个主体的行为改变了共享环境的状态,所有其他主体必须感知到并据此行动。
行业内已经开始向这一复杂领域进军,并探索出了多条极具启发性的技术路线。
Solaris 在 Minecraft 中收集了 1264 万帧多人同步数据,训练出可同步生成双人视频的世界模型。这一工作验证了多视角同步生成的可行性,不过在向三人及以上场景扩展时,注意力机制的计算复杂度不可持续。
Odyssey 的 Agora-1 实现了四个玩家共享实时生成的 GoldenEye 对战世界。它的解法是解耦模拟与渲染,依赖显式的游戏引擎状态作为中间表示。这本质上退化成了一个神经渲染器,绕过了“从像素中学习物理规律”这一世界模型的核心难点。
总结来看,前沿探索为多智能体世界模型打下了坚实基础。如何在此基础上,进一步实现对称且可扩展的身份编码、高效且不依赖外部状态的跨智能体通信,以及端到端的泛化能力,成为了下一阶段的核心命题。
5 月 27 日,NVIDIA、清华大学、多伦多大学和 Vector Institute 发布Gamma-World(γ-World),没有选择把多路画面拼在一起,也没有依赖显式游戏状态,而是从位置编码和注意力机制这两个底层组件入手。直接处理多智能体世界模型中最核心的几个约束——身份如何表示而不破坏对称性,状态如何共享而保持一致,通信如何高效完成而不被算力卡住。
论文发布后,Gamma-World 很快登上 Hugging Face Papers 当日榜单第一。对一篇偏底层架构的世界模型论文来说,这个热度信号说明,多智能体世界模型正在从小众技术问题,进入更主流的 AI 研究视野。
02 一作刘芳甫:从空间智能到世界模型,一条未断过的线

Gamma-World 的一作是来自清华大学的刘芳甫,他在 2023 年清华电子系本科毕业后继续直博,研究方向为空间智能和世界模型。刘芳甫在极短的时间内构建了令人瞩目的学术履历,他在TPAMI、CVPR、ECCV、NeurIPS、ICCV、ICLR、KDD等计算机视觉与人工智能顶会顶刊上发表近三十余篇论文,Project的Github Star累计超过1万,同时也为 CVPR、NeurIPS、ICML、ICLR、ICCV、SIGGRAPH等顶会担任审稿人。
Gamma-World 之所以选择从底层重构多智能体的交互机制,刘芳甫过去几年研究主线的自然延伸。梳理他近年在各大顶会发表的几十余篇论文,可以发现一个清晰的逻辑递进:世界模型不能只停留在“生成画面”,需要理解 Agent、动作和环境的相互关系,进一步能在交互中同步演化。他早期的 CASPER 探索了因果发现,随后的 Unique3D 、Physics3D 和 ReconX 等工作系统性地完成了从 3D 物体静态生成到 4D 物理动态场景生成的推进。到了近期的 Video-T1、Spatial-MLLM和Spatial-TTT,研究重心已明确转向空间推理与模型泛化。这种对物理约束和动态交互的长期关注,为 Gamma-World 解决多智能体状态一致性问题提供了直接的理论支撑。
03 从 demo 到数据:Gamma-World 证明多人世界真的能对上
论文展示了几组场景,从简单到复杂,逐步检验多智能体世界模型需要具备的核心能力。
Minecraft 里的双人世界
在虚拟世界中,Gamma-World 生成的不是两段互不相关的第一人称视频,而是同一个世界里的两组视角。玩家 A 移动、采集、建造,玩家 B 的视角中会出现相应变化;当两人暂时离开彼此视野后,地形、物体和玩家位置仍然能在后续画面中保持一致。
双人建造——一方放置方块,另一方视角中同步出现
模型必须知道多个视角指向同一个底层状态,而不是分别生成两段看起来合理的视频。一个方块被放下后,它不能只存在于放置者的画面里;一个玩家穿过另一名玩家的视野时,时间、方位和动作也不能错位。否则,多人世界就只是分屏视频拼接,不是真正的共享环境。
机器人场景
Gamma-World 还把同一套多智能体建模方法迁移到真实双臂机器人任务中:左右两条机械臂分别被视为一个 Agent,围绕同一个桌面物体进行协同操作。生成结果中,两条机械臂的运动没有互相穿透,桌面物体的位置在两个视角中保持一致,操作过程也没有明显的空间错乱。这说明 Gamma-World 捕捉到的不是某个游戏规则的表面模式,而是一种更通用的多主体共享状态建模方式。
双臂机器人协同,左右机械臂各为一个 agent

人数扩展
Gamma-World 还有一个重点创新点,只用双人数据训练,却能在推理时直接生成四个玩家的同步画面。四路第一人称视角同时展开,每个玩家独立控制;靠近的玩家能够互相看见,远离的玩家虽然没有直接视觉接触,但共享地形和建筑仍然保持一致。

论文 Figure 5(四智能体零样本泛化)| 图注:双人数据训练,四人场景直接泛化
这三组 demo 可以看到,Gamma-World 验证的不是单点视觉效果,而是一条递进链路:在虚拟世界中对齐多个视角,在现实世界中迁移到物理协同,再从 2 人扩展到 4 人。Gamma-World 称得上是多个可控主体,在同一个可持续演化的生成式世界。
评测指标领先
在定量指标上,Gamma-World 也有出色的表现。
Gamma-World 在多人 Minecraft 环境的五类场景中,对比 Solaris[3] 和帧拼接方案,视频质量指标 FVD 和图像质量指标 FID 全面领先(两者均越低越好)。Memory 场景的 FVD 从 Solaris 的 333.8 降到 184.1,Building 场景从 448.6 降到 264.5,平均降幅超过 40%。

五类场景 FVD/FID 对比——Gamma-World 在所有场景均为最优
04 两个底层设计解开多人世界模型的三道坎
多智能世界模型到底难在哪里?
其中有绕不开三个结构性问题:跨视角一致性——玩家 A 砍掉一棵树,玩家 B 那边也必须倒;置换对称性——能力相同的智能体不应因编号不同被区别对待;扩展效率——全连接注意力随玩家数平方增长,实时交互很快撑不住。
Gamma-World 用两个核心设计一并处理了它们。
身份编码:从数轴到正单纯形
视频 Transformer 用 3D RoPE 标记 token 的时间、高度、宽度。多智能体需要第四个轴——模型必须知道「这组 token 属于谁」。这个身份标记极其容易做错。
Solaris 给每个玩家加了一个 learned player ID embedding——为每个槽位学一组特定权重。缺陷有二:模型对「1 号位」和「2 号位」有不同先验偏好,对称性被打破;人数被锁死,加第三个玩家要么重训,要么硬插一个没见过的随机向量。另一个直觉方案是给智能体分配标量相位 θ_p = p·ω,像时间步一样排在数轴上。但数轴距离跟编号差成正比——agent 1 和 agent 3 的角度差是 1 和 2 的两倍,模型会认为编号相邻的智能体更近,而对称的多人游戏里不存在这种先验。
Gamma-World 的解法:把智能体映射到正单纯形(regular simplex)的顶点上——高维空间中所有顶点两两等距的几何体(二维是等边三角形,三维是正四面体)。在 RoPE 的旋转角空间中构造 V 个这样的顶点,数学上可证明任意两点距离恒为 √(2V/(V−1)),跟选了哪两个点无关。每个智能体随机分配到一个顶点,训练时随机映射防止槽位过拟合,推理时加人取闲置顶点即可——不改架构、不学新参数、整个编码 parameter-free。
这就是两人训练、四人泛化的数学根基。消融实验直接印证:将 learned view embedding 换成 Simplex Encoding,FVD 从 256.3 降到 228.5,FID 从 32.4 降到 29.6,其他部分完全不变。

图注:线性 RoPE 给智能体施加人为顺序;Simplex RoPE 让所有 agent pair 天然等距
跨智能体通信:hub token 做中继
玩家 A 放了一个方块,这个变化怎么传给玩家 B 的生成过程?Solaris 用 dense joint attention:所有玩家的所有 token 放进同一个注意力矩阵,计算量 O(P²n²L²)。两人时尚可,但 P 是平方项——4 人翻 4 倍,8 人翻 16 倍。而且建模上有浪费:地图两端互不可见的玩家做像素级全连接,大部分算力花在传递无用信息上。真正重要的跨玩家信息——「世界状态变了什么」——是高度压缩的。
Gamma-World 引入一小组可学习的 hub token 充当「公告栏」:每个智能体只能看到自己的历史和 hub,不能直接看其他玩家;hub 可以看到所有人。信息变成两条路径 agent → hub → agent,计算量对玩家数从平方降到线性。实测 8 人场景:dense attention 延迟 17.6ms,Sparse Hub Attention 4.5ms,FLOPs 差距约 8 倍。
更有意思的是消融结果:换上 Sparse Hub Attention 后 FVD 从 228.5 降到 223.4,SSIM 从 0.830 升到 0.836——掐断直接跨玩家注意力,质量反而略有改善。全连接中大量 token 级跨玩家交互实际上是噪声,去掉后模型更好地聚焦于真正有意义的全局状态变化。

论文 Figure 3(效率对比)| 图注:Sparse Hub Attention 与 Dense Attention 效率对比——玩家越多,差距越大
三阶段蒸馏到实时推理
在此基础上,Gamma-World 用三阶段训练把模型推到实时可用:先训双向教师(全局注意力,质量最高但不能在线用),再训因果学生(时间切块 + Sparse Hub Attention,具备流式能力),最后条件蒸馏到 4 步采样——学生在自回归 rollout 下训练,每生成一块就写入 KV cache 再基于自己的历史继续推理,训练和推理分布完全对齐。最终跑到 24 FPS 实时推理:每一帧都能接收新动作并更新共享世界状态。
两个设计缺一不可。Simplex Encoding 保证身份的对称性和可扩展性,Sparse Hub Attention 保证通信效率的线性增长。有对称编码但通信 O(P²),人数一多跑不动;通信够快但身份有偏,加人后质量会塌。Gamma-World 从位置编码和注意力掩码这两个 Transformer 最底层的组件入手,用最小的架构改动同时拿到了对称性、一致性和效率。
05 多智能体世界模型通向哪里?
多智能体世界模型打开的空间,不止画面里多出几个玩家。回到一个更根本的问题:Physical AI 为什么迟迟没有出现类似语言模型的 Scaling Law 红利?一个核心瓶颈是高质量交互数据的极度稀缺。语言数据可以从互联网上挖,但物理交互数据——一台机器人拿起杯子、另一台做出回应,一个玩家改变环境、另一个据此决策——几乎不存在规模化的采集来源。真实世界的数据产出速度,最终受限于人类时间和物理空间。
多智能体世界模型有可能改变这个等式。当模型能在共享环境中同时模拟多个智能体的交互,它就天然成为一台交互数据的生成器——多个 Agent 在虚拟世界中对抗、协作、探索,24 小时不间断地产出轨迹数据。Odyssey 在 Agora-1 的博客中专门讨论了这一点:当世界模型支持多 Agent 交互,强化学习智能体就可以在生成式环境中进行开放式的自我进化。
这也意味着 AI 内容生产的单位正在发生变化。过去生成的是一段视频、一张图像;现在生成的是一个可进入、可协作、可对抗的持续演化的环境。产出物从画面变成了世界,从单次渲染变成了持续交互。
这也是 Gamma-World 这类工作最让人兴奋的地方。 我们不需要无休止地用算力去暴力拟合所有视角的像素,而是可以通过优雅的底层架构设计,让 AI 真正“理解”多主体间的因果与物理法则。从单机到联机,从旁观者到参与者。当世界模型不仅能生成逼真的光影,还能承载无限扩列的玩家与智能体在其中博弈、试错、进化时,我们或许正在见证下一代智能的诞生。
References
Gamma-World 论文:Fangfu Liu, Kai He, et al. "Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players." arXiv:2605.28816, 2026.
Gamma-World 代码仓库:https://github.com/nv-tlabs/Gamma-World |项目主页:https://research.nvidia.com/labs/sil/projects/gamma-world/
Solaris:Georgy Savva, Oscar Michel, et al. "Solaris: Building a Multiplayer Video World Model in Minecraft." arXiv:2602.22208, 2026.
Odyssey Agora-1:odyssey.ml/introducing-agora-1, 2026. [6] Enigma Multiverse:github.com/EnigmaLabsAI/multiverse
刘芳甫个人主页:liuff19.github.io
Hugging Face 论文页:https://huggingface.co/papers/2605.28816






