阿里的世界模型发布, HappyOyster 全面解读
PRODUCT
阿里新出了个世界模型,叫 HappyOyster,中文名「快乐生蚝」
HappyOyster 实操画面
上面这段,就是 HappyOyster 跑出来的世界。能用一句话生成,能用 WASD 走进去,能在生成过程里持续插指令改剧情,能保存下来分享给别人二创
一句话,给出能走进去的世界
「快乐生蚝」这个名字听起来有点怪,其实大有来头
The world is your oyster. — 莎士比亚
这句话出自莎士比亚 1597 年的《温莎的快活妇人》。四百年来,一直被译作「世界是你的牡蛎」,本意是世界任你打开。HappyOyster 把这句比喻,做成了字面意义上的产品,然后这句话,也是产品的 slogan

HappyOyster 官网首页
这个产品的背后,是阿里 ATH 创新事业部,跟之前屠榜 Artificial Analysis 视频竞技场的 HappyHorse 同属一个部门。当前处于 Beta 内测阶段,通过官网 happyoyster.cn 加入候补名单
四大核心能力速览
官方把 HappyOyster 的能力归到四个支点
Wander 漫游一句话或一张图生成 3D 空间,WASD 走进去探索。1 分钟、480p
Direct 导演生成过程里持续插入指令,实时改镜头、改剧情。3 分钟、480p 或 720p
Create 创造交付的是一个可走进去的完整世界,越过了视频生成工具这一站
Share 分享用户生成的世界可保存、可被其他人二创,形成创作者生态
下面分别看具体效果
Wander 漫游:走进画面里
输入一句话或一张图,生成一个具备物理一致性的 3D 空间。鼠标控制视角,WASD 控制移动方向,第一人称视角自由探索
视角转动后场景内物体位置稳定,光照随视角连续变化。突破初始画框的边界后,世界仍在继续生成
第一个例子,用梵高《星夜》做生成,走进画里之后,柏树和教堂都立了起来,星空旋涡还在头顶转,画风一直是梵高的
走进梵高《星夜》漫游
切换到写实风格也能跑,第一人称在金色废墟里走,藤蔓挂在残柱上。光跟着视角换,画面跟 3A 游戏放一起也不违和
写实金色废墟漫游
这里的体验,跟玩游戏的体验比较像,区别在于,游戏世界是开发团队提前几年做好的。HappyOyster 的世界,是模型在你按下方向键的同时,一帧一帧实时算出来的
当然,除了名画和写实,Wander 还能跑卡通、像素、童话等风格,画质之间没有明显断层
Direct 导演:在生成中改剧情
输入一个初始 prompt 启动生成后,可以在视频流任意节点继续下达新指令。指令可以是文字、语音或图像,能实时切换镜头、调整角色动作、改变剧情走向
传统视频生成的工作流是,写 prompt → 等渲染 → 收成片,是一次性的。Direct 模式让用户能在生成过程里持续干预,画面持续演化,不需要重启生成
第一个例子是卡通鳄鱼飞行员。在生成过程里,输入了一句新指令,画面里是一只戴风镜的鳄鱼飞行员,开着飞机看夕阳。中途用户输入「Show the whole helicopter」(展示整架直升机)。下一帧镜头拉远,整架直升机出现。鳄鱼变成驾驶舱角落里的小人,手在仪表盘上
鳄鱼飞行员,中途输入「Show the whole helicopter」
中文叙事题材也能跑,下面这个是「金手指系统」开局短剧
中文短剧「第一个任务,买车」
第一帧少年坐在简陋房间里被金光笼罩,下一帧弹出系统 HUD 界面,再下一帧切到停车场。画面、中文字幕「第一个任务,买车」、系统 UI 同时生成
效果上等于把用户,从观众席挪到了导演位上
Create 和 Share:从视频到世界
Create 和 Share 这两块能力更接近一句产品哲学,官方把它叫做「打破第四面墙」
比如「我的世界」是一款游戏,也可以是一个世界,hhhh
过去几年,生成式 AI 经历了几次跃迁:生成文本、生成图像、生成视频。但这些能力都停留在「生成像素」这一层。画面越来越逼真,用户能做的依然只有一件事:看
那么,为什么不能让用户能推门、走进画面、亲手改写,能离开又回来,也能带朋友进去
如果我们把小生蚝做成视频,也蛮有意思的,比如下面这个
真 - 快乐生蚝
一只戴着生蚝壳当帽子的小动物,在森林里走。每走两步,样子换一遍。背景里的花、草、菌类、倒在地上的同类,一帧一换。整段没有剧情,画面一直在往前推
技术路径
阿里给出的技术能力归纳是三点
长时序世界建模:通过海量长视频数据,模型学到了真实世界的状态转移规律,能在长时间跨度里,保持高保真的动态场景生成
实时交互控制:在建模初始,就设计了多样的控制信号(文本、Action、图像等)。让外部指令持续作用于世界状态演化,而不只作用于初始条件
音视频联合生成:视觉和听觉协同建模、同步生成
阿里把这一组能力描述为「从『被动生成内容』转变为『主动模拟、并让用户参与世界演化』」
世界模型这个赛道,谷歌 DeepMind 2025 年 8 月发布 Genie 3 时定下了一个起点:720p、24fps、几分钟环境一致性。能用文本指令在画面里加天气、加角色、触发事件,谷歌把这种能力叫做「promptable world events」
HappyOyster 在官方表述里跟 Genie 3 处在同一方向上,做的是实时交互式世界建模。阿里把扩展点放在两处:一是在文本、控制信号、图像等多源条件下,做一致的时序建模。二是引入音视频联合生成,把世界模拟从单一视觉通道,扩展到多感知协同
前面 Direct 模式那段「Show the whole helicopter」改镜头的演示,跟谷歌的 promptable world events 是同一件事的产品化呈现
剩下的判断要等更多公开测评
当前能力边界
世界模型整体处于早期阶段,HappyOyster 也不例外。把当前能跑通的事,和暂时跑不通的事罗列清楚,方便心里有数
当前能跑通的
→ Wander 漫游,最长 1 分钟连续位移和镜头控制,分辨率 480p
→ Direct 导演,连续生成 3 分钟以上画面,分辨率可选 480p 或 720p
→ 多模态输入,文字、图像、语音都能作为指令
→ 音视频联合生成,画面跟声音同步出
→ 风格泛化,写实、卡通、像素、名画都能跑
→ 中文叙事和中文 UI 字幕的同时生成
→ 用户生成的世界保存下来,开放给其他用户二次创作
暂时跑不通的
漫游和导演两个模式当前没有打通。Wander 模式下能自由探索,但不能在探索过程里实时改写场景规则。Direct 模式下能改剧情,但不能用 WASD 走进画面里。阿里方面表示未来会做融合,现在不能
实时控制人物移动和镜头旋转时,存在卡顿,流畅度还有提升空间
商业化路径尚未明确。当前只对部分用户开放早期访问,定价和 API 开放节奏都还没公布
这背后是阿里 ATH
HappyOyster 的研发团队来自阿里 ATH(Alibaba Token Hub)创新事业部,跟之前那匹屠榜的 HappyHorse 同属一脉
今年 3 月的时候,阿里巴巴 CEO 吴泳铭亲自挂帅,成立了 ATH 事业群。下面整合了通义实验室、MaaS 业务线、千问事业部、悟空事业部、AI 创新事业部五大板块。吴泳铭在最新一季财报电话会上,给 ATH 设的目标是:未来五年,云和 AI 商业化的年收入要做到 1000 亿美元
谷歌 Genie 3 把天花板放在那里,国产几家在追。阿里 ATH 选了实时交互这一支,HappyOyster 是这条线上的第一个产品
莎士比亚那句话,被搬到 2026 年的世界模型里,似乎又多了一层意味
The world is your oyster, open it
🦪 快乐生蚝 🦪
官网入口
https://www.happyoyster.cn/
参考材料
HappyOyster 官网https://www.happyoyster.cn/
