一分钟的奇迹与幻觉：实测世界模型Happy Oyster

发布时间：2026-04-22来源：AI科技评论

具备初步的世界状态跟踪能力，但不适合强约束、高可预测性的系统任务。

作者丨冯逸飞

编辑丨马晓宁梁丙鉴

4 月 16 日，阿里发布了主打实时构建和交互的开放式世界模型产品 Happy Oyster。基于原生多模态架构，Happy Oyster 支持多模态输入与音视频联合生成，且生成过程中能够持续接收用户指令，实现画面实时响应、持续演绎。

如果说 AGI 是终极愿景，具身智能是物质载体，那么世界模型就是这一切的认知基础。它在技术脉络中占据了一个极其特殊的位置，那就是从大模型的“预测下一个词“，向”预测下一个物理状态“的演进节点。

这也让世界模型成为了一条炙手可热的赛道。16 日当天，腾讯开源了 HY-World 2.0，次日群核科技在港交所上市，成为“全球空间智能第一股“。视角拉得更远，谷歌、英伟达、Meta，以及李飞飞坐镇的 World Labs 都早就对这一赛道有所布局。

竞争逐渐升温之际，我们不禁要问，在最宏伟的愿景实现之前，有哪些先期落地场景可以为日后的争夺输血？

在诸多可能的应用方向中，游戏开发是一个被各大厂商频频提及的选择。原因不难理解。视频模型证明了 AI 已经很擅于交付画面，交互式的世界模型又向前迈了一步，尝试给用户一个可以进入、修改，并支持对用户的交互做出反应的场景。

当模型生成的不仅是镜头，而是某种可以被操纵的世界状态，它就触及了一度属于游戏引擎的工作，Happy Oyster 显然也在此列。

今天的世界模型，足以在游戏工业中落地了吗？它会如何改造游戏开发的流程，或是被游戏工业的需求反向影响？从构建场景的基础功能开始，我们模拟游戏开发的真实需求，测试了一下 Happy Oyster 的表现。

实测一：构建场景，渲染光线，接替引擎的世界模型

Happy Oyster 一个很明显的特点是，它的交互体验已经不是我们熟悉的“用户说一句，模型生成一段”，而更像是允许用户在一个松散、概率化的实时系统里不断推着它往前走。

在官方给出的示例中，我试着做了几次很直白的修改，比如直接下达“增加角色数量”、“添加说话行为”等指令。有意思的是，新增角色并不会凭空出现在画面中，而是看起来更合理地从画面边缘进入，这说明 Happy Oyster 不是把整个场景推倒重来，而是在已有基础上进行增补。

类似的例子是，画面风格的变化会连带影响画面中物品呈现的材质和环境光，角色发出的声音和其原本的动作之间，也有着初步的同步感。在体验上，这更像是在维护一个比较脆弱，但确实已经存在的“当前状态”。

为了验证这个想法，我又要求在画面中加入赛博朋克元素。Happy Oyster 并没有用一层滤镜敷衍了事，霓虹灯这一赛博朋克经典元素出现之后，画面的色调被重新校准了，很多不同的物品也表现出更多的反射感，这些细节的同步变化重塑了场景的气氛。

Happy Oyster 只有真正理解了“赛博朋克”是什么，才能根据短短一句指令，就在原本的输出结果上修改出尽可能贴近《赛博朋克 2077》质感的画面。传统的游戏引擎是通过有限的资源组合加位置摆放完成场景构建，而 Happy Oyster 显然已经到了隐式的语义生成阶段。

对开发者而言，变化就发生在那些原本靠“搭”和“调”手工完成的环节，正在慢慢被“描述”取代。尤其是在灯光、氛围、视觉预研这些更前置的工作里，Happy Oyster 已经表现出了生产级的能力。你可以用它很敏捷地尝试创作方向和画面风格，而每一次试错中，来回调参数的成本都会被压到最小。

不只是前期视觉工具，从赛博朋克这个测试案例，可以看出 Happy Oyster 对于绕开现有的渲染流程，也有着不可小觑的价值。

传统游戏引擎的渲染方案是追求在有限算力下，把光照计算得尽可能逼真。这方面的技术包括：

▪ BRDF / BSDF 材质建模

▪ 光源采样（Direct / Indirect）

▪ 阴影（Shadow Map / Ray Tracing）

▪ 全局光照（Lightmap / SSGI / Lumen）

▪ 各种屏幕空间近似（SSR、SSAO 等）

虽然实现方法各不相同，但本质上都在试图用更可解释、可复现的计算，把画面的光影推向“视觉上正确”。但世界模型的解决方案完全不同，它不是在把这条计算链路算得更快，而是直接去猜一个合理的结果。

事实上，渲染管线本身在过去几年里也发生着类似的变化。以 DLSS 3.5、Ray Reconstruction，以及最近被反复提到的 DLSS 5 为例，它们会生成中间帧、替代部分去噪过程，还会在最终图像层补全光照和细节。Ray Reconstruction 是用一个训练过的模型，补全有限采样下的光照信息。而一些对 DLSS 5 的介绍，也开始提到它在材质和光照观感层面对渲染画面的进一步重建。

这种变化真正有意思的地方在于，最终画面早就不是引擎算出来什么，就显示什么。而以 Happy Oyster 为代表的世界模型，正在更深入地介入这个最后环节。

如果说传统渲染是在解方程，神经渲染是在弱约束条件下做推断，那么世界模型则更进一步，在弱约束条件下直接生成，一句“赛博朋克风格”的指令就是例子。

三种方案都试图在有限条件下，给出一个“看上去没问题”的画面，根本差别在于约束的强弱。神经渲染仍然站在引擎的肩膀上，使用几何、深度、运动向量这些信息，在一个边界清晰的空间里帮开发者优化结果，而世界模型则拿出了最激进的方案。它要用最少的约束、最少的信息，直接补全到空间、光照、物体齐备、匹配的程度，生成这件事由此从像素层，跃升到了世界层。

不可否认，这条路相当迷人，但代价也很明显。

传统渲染的优点在于可解释、可复现，一道光为什么如此照下来，你大体知道结果是怎么计算的，出了问题，很多时候可以顺着管线倒查。可一旦输出换成模型推断的结果，情况就会开始不同。

最直接的影响就是，当输出带有概率性，你就很难进行精确约束，同一个问题不一定稳定复现，debug 成本也会显著上升。在可控性问题真正解决之前，所谓的生成式渲染更接近于一种强大的视觉表达工具。

更现实的可能是，未来的游戏开发中传统引擎会继续负责空间结构、物理规则、游戏逻辑和同步状态，模型逐步接管高频视觉细节、材质表现、局部补全和观感优化，Happy Oyster 这类世界模型则会加速这一协同模式的成熟。

世界需要先被定义，但越来越大比例的画面会被模型“猜”出来。这个比例增长的速度，可能比我们想象中快得多。

实测二：“连续幻觉”，还是完整世界？

在前面的试水之后，我又开始尝试让 Happy Oyster 接管更完整的游戏开发，比如做一段玩家第一视角的游戏demo。

我给了 Happy Oyster 一张《天国：拯救 2》的截图，让模型据此生成一个完整的中世纪城镇，同时用比较精确的提示词控制了画面氛围和视角。测试所用截图和提示词如下，提示词由 GPT-5.4 辅助生成：

大致的意思是，阴沉的天空下，一座中世纪波西米亚的防御小镇静静伫立，烟囱里飘着缕缕青烟。潮湿泥泞的道路蜿蜒而上，通往高耸城墙内一座狭窄的石门。城墙两侧耸立着瞭望塔、木屋和木制脚手架，整体色调沉稳而质朴，空气寒冷潮湿，营造出真实的历史氛围。玩家将以第一人称视角骑马缓缓驶向城门，沉浸于浓郁的中世纪氛围之中。

模型输出的初始画面如下：

第一眼看上去，效果其实很惊艳。初始画面对原始截图的还原度非常高，在我尝试移动视角时，周围的建筑物结构也没有明显不合理之处，就连画面前方的 NPC 也有着相对可信的表现，很有代入感。

但在我让人物转了一圈之后，回到原点时，初始画面里的城门没有了。

一致性长期作为世界模型的关键瓶颈存在，无论从技术攻关还是落地应用的角度而言都是如此。Happy Oyster 内置导演模式和漫游模式两个版本，前者最长持续时长 3 分钟，官方介绍称该模式支持光照、重力、角色动作、场景因果关系保持连续一致，且允许用户实时干预，后者可以做到物体位置稳定、环境持续存在、视角与光照连续响应，最长持续时间则限制为 1 分钟，且只支持角色位置移动和镜头视角调整的交互。

论绝对一致性时长，腾讯 HY-World 2.0 理论上甚至没有上限。但是其并非生成视频，而是直接生成 3D 资产，一致性由传统 3D 渲染引擎保障。技术路线更一致的比较对象是谷歌此前发布的 Genie 3，官方技术文档介绍其已经可以达到数分钟级的视觉一致性和约 1 分钟的视觉记忆窗口。也就是当用户在 Genie 3 生成的世界中离开某个区域后，如果要求返回时，之前观察到的物体布局、涂鸦、建筑结构等视觉特征仍能保持稳定，那么这个时间窗口是 1 分钟之内。因此 Happy Oyster 漫游模式的 1 分钟成绩，在像素级实时渲染世界模型这一细分赛道，已经属于第一梯队水平。

但落在生产场景，状态难以持久导致的场景细节逐渐破碎、同一个对象反复变形，让今天的头部水平未必足以承担起系统级的交互任务。至少在现阶段，世界模型更接近一种带有时间连续性的可交互视频系统，而非成熟的新一代游戏引擎。

也正因此，世界模型最先带来的改变不会发生在游戏形态本身，而是从改造开发流程开始。

一个比较现实的演进顺序是，世界模型首先会被用于快速生成世界设定，用来替代一部分概念原型工作，然后会作为低成本的试错工具，供给给镜头、环境氛围、游戏节奏这类原本需要通过引擎反复微调的内容生产。再往后，才会是内容辅助生成。

Photoshop 没取代相机，Houdini （一款三维计算机图形软件，在影视特效和游戏开发等行业被广泛使用）也没取代引擎，但它们都实实在在地改变了很多人的工作流。或许对于传统游戏引擎来说，世界模型也是一样。

世界模型初体验之最终感想

游戏从来不是连续的画面那么简单。开发者们真正的心血，很多时候花在关卡节奏、数值反馈、机制组合、玩家路径控制这些结构设计上。这些任务兼具强约束和高可预测性的特征，而这正是今天的世界模型最薄弱的地方。

此外，一个能真正商业化、长期留住玩家的游戏，往往意味着数十小时的内容、稳定的系统循环，甚至是多人同步的大型世界。至少今天的世界模型，还远远没有走到这一步，这也是为什么它们更像是一次性体验的生成器，而没有展现出更成熟的产品形态。

但对迈向游戏行业的世界模型而言，真正重要的问题从来不是能不能干掉传统引擎，而是如何塑造一种全新的游戏体验。

过去更常见的路径是玩家下载游戏，进入预先设计好的世界，按照开发者设定的规则行事。而世界模型带来的另一种可能是，玩家可以依据兴趣自由描述，然后直接进入系统即时生成的世界中。

当这个入口成立，世界模型对游戏行业的颠覆就不再局限于开发管线，而会是整个内容生产范式的转变。如果“世界生成”的变成一种廉价的能力，“玩家为什么愿意留下”就会成为更昂贵的洞察，游戏工业将重新向着游戏体验设计的本质回溯。

今天的 Happy Oyster 只能维持一分钟的视觉记忆，却是短暂但宝贵的第一分钟。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

一分钟的奇迹与幻觉：实测世界模型Happy Oyster

实测一：构建场景，渲染光线，接替引擎的世界模型

实测二：“连续幻觉”，还是完整世界？

世界模型初体验之最终感想

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。