一分钟的奇迹与幻觉:实测世界模型Happy Oyster

作者丨冯逸飞
编辑丨马晓宁 梁丙鉴

4 月 16 日,阿里发布了主打实时构建和交互的开放式世界模型产品 Happy Oyster。基于原生多模态架构,Happy Oyster 支持多模态输入与音视频联合生成,且生成过程中能够持续接收用户指令,实现画面实时响应、持续演绎。
如果说 AGI 是终极愿景,具身智能是物质载体,那么世界模型就是这一切的认知基础。它在技术脉络中占据了一个极其特殊的位置,那就是从大模型的“预测下一个词“,向”预测下一个物理状态“的演进节点。
这也让世界模型成为了一条炙手可热的赛道。16 日当天,腾讯开源了 HY-World 2.0,次日群核科技在港交所上市,成为“全球空间智能第一股“。视角拉得更远,谷歌、英伟达、Meta,以及李飞飞坐镇的 World Labs 都早就对这一赛道有所布局。
竞争逐渐升温之际,我们不禁要问,在最宏伟的愿景实现之前,有哪些先期落地场景可以为日后的争夺输血?
在诸多可能的应用方向中,游戏开发是一个被各大厂商频频提及的选择。原因不难理解。视频模型证明了 AI 已经很擅于交付画面,交互式的世界模型又向前迈了一步,尝试给用户一个可以进入、修改,并支持对用户的交互做出反应的场景。
当模型生成的不仅是镜头,而是某种可以被操纵的世界状态,它就触及了一度属于游戏引擎的工作,Happy Oyster 显然也在此列。
今天的世界模型,足以在游戏工业中落地了吗?它会如何改造游戏开发的流程,或是被游戏工业的需求反向影响?从构建场景的基础功能开始,我们模拟游戏开发的真实需求,测试了一下 Happy Oyster 的表现。


01
实测一:构建场景,渲染光线,接替引擎的世界模型
Happy Oyster 一个很明显的特点是,它的交互体验已经不是我们熟悉的“用户说一句,模型生成一段”,而更像是允许用户在一个松散、概率化的实时系统里不断推着它往前走。
在官方给出的示例中,我试着做了几次很直白的修改,比如直接下达“增加角色数量”、“添加说话行为”等指令。有意思的是,新增角色并不会凭空出现在画面中,而是看起来更合理地从画面边缘进入,这说明 Happy Oyster 不是把整个场景推倒重来,而是在已有基础上进行增补。
类似的例子是,画面风格的变化会连带影响画面中物品呈现的材质和环境光,角色发出的声音和其原本的动作之间,也有着初步的同步感。在体验上,这更像是在维护一个比较脆弱,但确实已经存在的“当前状态”。

为了验证这个想法,我又要求在画面中加入赛博朋克元素。Happy Oyster 并没有用一层滤镜敷衍了事,霓虹灯这一赛博朋克经典元素出现之后,画面的色调被重新校准了,很多不同的物品也表现出更多的反射感,这些细节的同步变化重塑了场景的气氛。

Happy Oyster 只有真正理解了“赛博朋克”是什么,才能根据短短一句指令,就在原本的输出结果上修改出尽可能贴近《赛博朋克 2077》质感的画面。传统的游戏引擎是通过有限的资源组合加位置摆放完成场景构建,而 Happy Oyster 显然已经到了隐式的语义生成阶段。
对开发者而言,变化就发生在那些原本靠“搭”和“调”手工完成的环节,正在慢慢被“描述”取代。尤其是在灯光、氛围、视觉预研这些更前置的工作里,Happy Oyster 已经表现出了生产级的能力。你可以用它很敏捷地尝试创作方向和画面风格,而每一次试错中,来回调参数的成本都会被压到最小。
不只是前期视觉工具,从赛博朋克这个测试案例,可以看出 Happy Oyster 对于绕开现有的渲染流程,也有着不可小觑的价值。
传统游戏引擎的渲染方案是追求在有限算力下,把光照计算得尽可能逼真。这方面的技术包括:
▪ BRDF / BSDF 材质建模
▪ 光源采样(Direct / Indirect)
▪ 阴影(Shadow Map / Ray Tracing)
▪ 全局光照(Lightmap / SSGI / Lumen)
▪ 各种屏幕空间近似(SSR、SSAO 等)
虽然实现方法各不相同,但本质上都在试图用更可解释、可复现的计算,把画面的光影推向“视觉上正确”。但世界模型的解决方案完全不同,它不是在把这条计算链路算得更快,而是直接去猜一个合理的结果。
事实上,渲染管线本身在过去几年里也发生着类似的变化。以 DLSS 3.5、Ray Reconstruction,以及最近被反复提到的 DLSS 5 为例,它们会生成中间帧、替代部分去噪过程,还会在最终图像层补全光照和细节。Ray Reconstruction 是用一个训练过的模型,补全有限采样下的光照信息。而一些对 DLSS 5 的介绍,也开始提到它在材质和光照观感层面对渲染画面的进一步重建。
这种变化真正有意思的地方在于,最终画面早就不是引擎算出来什么,就显示什么。而以 Happy Oyster 为代表的世界模型,正在更深入地介入这个最后环节。
如果说传统渲染是在解方程,神经渲染是在弱约束条件下做推断,那么世界模型则更进一步,在弱约束条件下直接生成,一句“赛博朋克风格”的指令就是例子。
三种方案都试图在有限条件下,给出一个“看上去没问题”的画面,根本差别在于约束的强弱。神经渲染仍然站在引擎的肩膀上,使用几何、深度、运动向量这些信息,在一个边界清晰的空间里帮开发者优化结果,而世界模型则拿出了最激进的方案。它要用最少的约束、最少的信息,直接补全到空间、光照、物体齐备、匹配的程度,生成这件事由此从像素层,跃升到了世界层。
不可否认,这条路相当迷人,但代价也很明显。
传统渲染的优点在于可解释、可复现,一道光为什么如此照下来,你大体知道结果是怎么计算的,出了问题,很多时候可以顺着管线倒查。可一旦输出换成模型推断的结果,情况就会开始不同。
最直接的影响就是,当输出带有概率性,你就很难进行精确约束,同一个问题不一定稳定复现,debug 成本也会显著上升。在可控性问题真正解决之前,所谓的生成式渲染更接近于一种强大的视觉表达工具。
更现实的可能是,未来的游戏开发中传统引擎会继续负责空间结构、物理规则、游戏逻辑和同步状态,模型逐步接管高频视觉细节、材质表现、局部补全和观感优化,Happy Oyster 这类世界模型则会加速这一协同模式的成熟。
世界需要先被定义,但越来越大比例的画面会被模型“猜”出来。这个比例增长的速度,可能比我们想象中快得多。
02
实测二:“连续幻觉”,还是完整世界?
在前面的试水之后,我又开始尝试让 Happy Oyster 接管更完整的游戏开发,比如做一段玩家第一视角的游戏demo。
我给了 Happy Oyster 一张《天国:拯救 2》的截图,让模型据此生成一个完整的中世纪城镇,同时用比较精确的提示词控制了画面氛围和视角。测试所用截图和提示词如下,提示词由 GPT-5.4 辅助生成:


大致的意思是,阴沉的天空下,一座中世纪波西米亚的防御小镇静静伫立,烟囱里飘着缕缕青烟。潮湿泥泞的道路蜿蜒而上,通往高耸城墙内一座狭窄的石门。城墙两侧耸立着瞭望塔、木屋和木制脚手架,整体色调沉稳而质朴,空气寒冷潮湿,营造出真实的历史氛围。玩家将以第一人称视角骑马缓缓驶向城门,沉浸于浓郁的中世纪氛围之中。
模型输出的初始画面如下:

第一眼看上去,效果其实很惊艳。初始画面对原始截图的还原度非常高,在我尝试移动视角时,周围的建筑物结构也没有明显不合理之处,就连画面前方的 NPC 也有着相对可信的表现,很有代入感。
但在我让人物转了一圈之后,回到原点时,初始画面里的城门没有了。
一致性长期作为世界模型的关键瓶颈存在,无论从技术攻关还是落地应用的角度而言都是如此。Happy Oyster 内置导演模式和漫游模式两个版本,前者最长持续时长 3 分钟,官方介绍称该模式支持光照、重力、角色动作、场景因果关系保持连续一致,且允许用户实时干预,后者可以做到物体位置稳定、环境持续存在、视角与光照连续响应,最长持续时间则限制为 1 分钟,且只支持角色位置移动和镜头视角调整的交互。
论绝对一致性时长,腾讯 HY-World 2.0 理论上甚至没有上限。但是其并非生成视频,而是直接生成 3D 资产,一致性由传统 3D 渲染引擎保障。技术路线更一致的比较对象是谷歌此前发布的 Genie 3,官方技术文档介绍其已经可以达到数分钟级的视觉一致性和约 1 分钟的视觉记忆窗口。也就是当用户在 Genie 3 生成的世界中离开某个区域后,如果要求返回时,之前观察到的物体布局、涂鸦、建筑结构等视觉特征仍能保持稳定,那么这个时间窗口是 1 分钟之内。因此 Happy Oyster 漫游模式的 1 分钟成绩,在像素级实时渲染世界模型这一细分赛道,已经属于第一梯队水平。
但落在生产场景,状态难以持久导致的场景细节逐渐破碎、同一个对象反复变形,让今天的头部水平未必足以承担起系统级的交互任务。至少在现阶段,世界模型更接近一种带有时间连续性的可交互视频系统,而非成熟的新一代游戏引擎。
也正因此,世界模型最先带来的改变不会发生在游戏形态本身,而是从改造开发流程开始。
一个比较现实的演进顺序是,世界模型首先会被用于快速生成世界设定,用来替代一部分概念原型工作,然后会作为低成本的试错工具,供给给镜头、环境氛围、游戏节奏这类原本需要通过引擎反复微调的内容生产。再往后,才会是内容辅助生成。
Photoshop 没取代相机,Houdini (一款三维计算机图形软件,在影视特效和游戏开发等行业被广泛使用)也没取代引擎,但它们都实实在在地改变了很多人的工作流。或许对于传统游戏引擎来说,世界模型也是一样。
03
世界模型初体验之最终感想
游戏从来不是连续的画面那么简单。开发者们真正的心血,很多时候花在关卡节奏、数值反馈、机制组合、玩家路径控制这些结构设计上。这些任务兼具强约束和高可预测性的特征,而这正是今天的世界模型最薄弱的地方。
此外,一个能真正商业化、长期留住玩家的游戏,往往意味着数十小时的内容、稳定的系统循环,甚至是多人同步的大型世界。至少今天的世界模型,还远远没有走到这一步,这也是为什么它们更像是一次性体验的生成器,而没有展现出更成熟的产品形态。
但对迈向游戏行业的世界模型而言,真正重要的问题从来不是能不能干掉传统引擎,而是如何塑造一种全新的游戏体验。
过去更常见的路径是玩家下载游戏,进入预先设计好的世界,按照开发者设定的规则行事。而世界模型带来的另一种可能是,玩家可以依据兴趣自由描述,然后直接进入系统即时生成的世界中。
当这个入口成立,世界模型对游戏行业的颠覆就不再局限于开发管线,而会是整个内容生产范式的转变。如果“世界生成”的变成一种廉价的能力,“玩家为什么愿意留下”就会成为更昂贵的洞察,游戏工业将重新向着游戏体验设计的本质回溯。
今天的 Happy Oyster 只能维持一分钟的视觉记忆,却是短暂但宝贵的第一分钟。



智谱 AutoClaw 深度测评:一键把电脑变成 AI Agent,是神器还是半成品?

我们用「西游取经团」实测 MiniMax M2.7 ,发现 AI 已经进化成这样了?

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
