阿里的世界模型发布， HappyOyster 全面解读

发布时间：2026-04-18来源：赛博禅心

PRODUCT

阿里新出了个世界模型，叫 HappyOyster，中文名「快乐生蚝」

HappyOyster 实操画面

上面这段，就是 HappyOyster 跑出来的世界。能用一句话生成，能用 WASD 走进去，能在生成过程里持续插指令改剧情，能保存下来分享给别人二创

一句话，给出能走进去的世界

「快乐生蚝」这个名字听起来有点怪，其实大有来头

The world is your oyster. — 莎士比亚

这句话出自莎士比亚 1597 年的《温莎的快活妇人》。四百年来，一直被译作「世界是你的牡蛎」，本意是世界任你打开。HappyOyster 把这句比喻，做成了字面意义上的产品，然后这句话，也是产品的 slogan

HappyOyster 官网首页

这个产品的背后，是阿里 ATH 创新事业部，跟之前屠榜 Artificial Analysis 视频竞技场的 HappyHorse 同属一个部门。当前处于 Beta 内测阶段，通过官网 happyoyster.cn 加入候补名单

四大核心能力速览

官方把 HappyOyster 的能力归到四个支点

Wander 漫游一句话或一张图生成 3D 空间，WASD 走进去探索。1 分钟、480p

Direct 导演生成过程里持续插入指令，实时改镜头、改剧情。3 分钟、480p 或 720p

Create 创造交付的是一个可走进去的完整世界，越过了视频生成工具这一站

Share 分享用户生成的世界可保存、可被其他人二创，形成创作者生态

下面分别看具体效果

Wander 漫游：走进画面里

输入一句话或一张图，生成一个具备物理一致性的 3D 空间。鼠标控制视角，WASD 控制移动方向，第一人称视角自由探索

视角转动后场景内物体位置稳定，光照随视角连续变化。突破初始画框的边界后，世界仍在继续生成

第一个例子，用梵高《星夜》做生成，走进画里之后，柏树和教堂都立了起来，星空旋涡还在头顶转，画风一直是梵高的

走进梵高《星夜》漫游

切换到写实风格也能跑，第一人称在金色废墟里走，藤蔓挂在残柱上。光跟着视角换，画面跟 3A 游戏放一起也不违和

写实金色废墟漫游

这里的体验，跟玩游戏的体验比较像，区别在于，游戏世界是开发团队提前几年做好的。HappyOyster 的世界，是模型在你按下方向键的同时，一帧一帧实时算出来的

当然，除了名画和写实，Wander 还能跑卡通、像素、童话等风格，画质之间没有明显断层

Direct 导演：在生成中改剧情

输入一个初始 prompt 启动生成后，可以在视频流任意节点继续下达新指令。指令可以是文字、语音或图像，能实时切换镜头、调整角色动作、改变剧情走向

传统视频生成的工作流是，写 prompt → 等渲染 → 收成片，是一次性的。Direct 模式让用户能在生成过程里持续干预，画面持续演化，不需要重启生成

第一个例子是卡通鳄鱼飞行员。在生成过程里，输入了一句新指令，画面里是一只戴风镜的鳄鱼飞行员，开着飞机看夕阳。中途用户输入「Show the whole helicopter」（展示整架直升机）。下一帧镜头拉远，整架直升机出现。鳄鱼变成驾驶舱角落里的小人，手在仪表盘上

鳄鱼飞行员，中途输入「Show the whole helicopter」

中文叙事题材也能跑，下面这个是「金手指系统」开局短剧

中文短剧「第一个任务，买车」

第一帧少年坐在简陋房间里被金光笼罩，下一帧弹出系统 HUD 界面，再下一帧切到停车场。画面、中文字幕「第一个任务，买车」、系统 UI 同时生成

效果上等于把用户，从观众席挪到了导演位上

Create 和 Share：从视频到世界

Create 和 Share 这两块能力更接近一句产品哲学，官方把它叫做「打破第四面墙」

比如「我的世界」是一款游戏，也可以是一个世界，hhhh

过去几年，生成式 AI 经历了几次跃迁：生成文本、生成图像、生成视频。但这些能力都停留在「生成像素」这一层。画面越来越逼真，用户能做的依然只有一件事：看

那么，为什么不能让用户能推门、走进画面、亲手改写，能离开又回来，也能带朋友进去

如果我们把小生蚝做成视频，也蛮有意思的，比如下面这个

真 - 快乐生蚝

一只戴着生蚝壳当帽子的小动物，在森林里走。每走两步，样子换一遍。背景里的花、草、菌类、倒在地上的同类，一帧一换。整段没有剧情，画面一直在往前推

技术路径

阿里给出的技术能力归纳是三点

长时序世界建模：通过海量长视频数据，模型学到了真实世界的状态转移规律，能在长时间跨度里，保持高保真的动态场景生成

实时交互控制：在建模初始，就设计了多样的控制信号（文本、Action、图像等）。让外部指令持续作用于世界状态演化，而不只作用于初始条件

音视频联合生成：视觉和听觉协同建模、同步生成

阿里把这一组能力描述为「从『被动生成内容』转变为『主动模拟、并让用户参与世界演化』」

世界模型这个赛道，谷歌 DeepMind 2025 年 8 月发布 Genie 3 时定下了一个起点：720p、24fps、几分钟环境一致性。能用文本指令在画面里加天气、加角色、触发事件，谷歌把这种能力叫做「promptable world events」

HappyOyster 在官方表述里跟 Genie 3 处在同一方向上，做的是实时交互式世界建模。阿里把扩展点放在两处：一是在文本、控制信号、图像等多源条件下，做一致的时序建模。二是引入音视频联合生成，把世界模拟从单一视觉通道，扩展到多感知协同

前面 Direct 模式那段「Show the whole helicopter」改镜头的演示，跟谷歌的 promptable world events 是同一件事的产品化呈现

剩下的判断要等更多公开测评

当前能力边界

世界模型整体处于早期阶段，HappyOyster 也不例外。把当前能跑通的事，和暂时跑不通的事罗列清楚，方便心里有数

当前能跑通的

→ Wander 漫游，最长 1 分钟连续位移和镜头控制，分辨率 480p

→ Direct 导演，连续生成 3 分钟以上画面，分辨率可选 480p 或 720p

→ 多模态输入，文字、图像、语音都能作为指令

→ 音视频联合生成，画面跟声音同步出

→ 风格泛化，写实、卡通、像素、名画都能跑

→ 中文叙事和中文 UI 字幕的同时生成

→ 用户生成的世界保存下来，开放给其他用户二次创作

暂时跑不通的

漫游和导演两个模式当前没有打通。Wander 模式下能自由探索，但不能在探索过程里实时改写场景规则。Direct 模式下能改剧情，但不能用 WASD 走进画面里。阿里方面表示未来会做融合，现在不能

实时控制人物移动和镜头旋转时，存在卡顿，流畅度还有提升空间

商业化路径尚未明确。当前只对部分用户开放早期访问，定价和 API 开放节奏都还没公布

这背后是阿里 ATH

HappyOyster 的研发团队来自阿里 ATH（Alibaba Token Hub）创新事业部，跟之前那匹屠榜的 HappyHorse 同属一脉

今年 3 月的时候，阿里巴巴 CEO 吴泳铭亲自挂帅，成立了 ATH 事业群。下面整合了通义实验室、MaaS 业务线、千问事业部、悟空事业部、AI 创新事业部五大板块。吴泳铭在最新一季财报电话会上，给 ATH 设的目标是：未来五年，云和 AI 商业化的年收入要做到 1000 亿美元

谷歌 Genie 3 把天花板放在那里，国产几家在追。阿里 ATH 选了实时交互这一支，HappyOyster 是这条线上的第一个产品

莎士比亚那句话，被搬到 2026 年的世界模型里，似乎又多了一层意味

The world is your oyster, open it

🦪 快乐生蚝 🦪

官网入口

https://www.happyoyster.cn/

参考材料

HappyOyster 官网
https://www.happyoyster.cn/

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。