Z Potentials|4个月Discord全球第二,然后呢?Viggle创始人首次讲述通往世界模型的路


导语
在人工智能的叙事里,人们常提到奇点的降临:当模型参数跨过某个临界点,智能会突然跨越鸿沟,涌现随之发生。
这种技术世界的客观规律,在楚航身上构成了一种奇妙的互文。如果将他过去十余年在生成式3D领域的深耕看作一场漫长“预训练”,那么2024年夏天他打造的Viggle AI在全球爆发,更像是这组庞大参数在坚持正确路径后,必然发生的一次能力涌现。
故事的“输入端”要追溯到11年前。彼时,楚航在现代人工智能的发源地——由诺贝尔奖得主Geoffrey Hinton建立的多伦多大学机器学习组攻读博士。在那个深度学习尚在萌芽、生成式方向乏人问津的年代,他便一头扎进了“3D模型生成”的冷门赛道,当时World Model这个词都没有诞生。此后的十余年,外界热点几经更迭,他的方向始终未改——先后在Google、NVIDIA、Facebook、Autodesk,一直做3D生成式这个方向。
2024年夏天,他终于迎来了一次产品上的奖励时刻。Viggle AI如黑马般闯入大众视野,上线仅四个月,官网访问量从0飙升至600多万,爆发速度甚至超越了当年的Midjourney;其Discord社区迅速膨胀至450万人,跃升为全球第二大AI创作社区。不过对楚航而言,不论是所谓行业风口,还是现象级的关注,都只是系统在正确路径上运行一段时日后,随机掉落的一份“奖励机制”,他更关心的依然是11年前那个最初的命题:如何通过创造,实现对世界最深彻的理解。正如理查德·费曼的那句名言,“What I cannot create, I do not understand.”
某种程度上,Viggle AI的出现,正是这条路径的一次阶段性显影。从产品形态来看,它提供的是一种极低门槛的生成能力:用户可以将角色与动作自由组合,通过Remix的方式生成新的3D内容。
在TikTok上,无数人利用Viggle让原本严肃的角色跳起滑稽的舞蹈,这种“Silly Fun”背后,是一个试图理解“空间、运动与因果”的生成式引擎。
“如果想让人工智能真正理解世界,就必须直接建模物理世界本身。”所以从创业之初,楚航和团队选择的方向就是构建一个能真正理解空间、运动以及因果关系等结构的基础模型。
这是一条更难的路,相比于将多模态信息压缩进语言序列的传统路径,他们选择直接对“世界结构”建模——用具备空间与运动属性的“World Token”,去表达真实世界中的对象与关系。楚航将这条路概括为:用数据驱动的生成式基础模型,从底层重构整个世界模型和世界引擎。“我们的模型天然具备空间和运动属性,且可以进行生成、编辑和交互,还可以端到端学习、优化。”
“World Model for Fun,”楚航如此定义Viggle AI的内核。在他看来,真正的壁垒在于模型能力与用户价值之间的正反馈闭环。
沿着“可控性、一致性与零延迟”的目标,Viggle AI正在进入下一阶段。第二代模型不再只是工具,而更接近一种可以被直接“进入”的形态——一个世界生成引擎。用户不需要先学习如何创作,而是“先玩起来”,游戏世界可以被持续生成、不断编辑和扩展;每个人都能参与其中,创作与玩的边界被抹平,内容不再被“做出来”,而是在交互中不断生长。
这正是他所勾勒的“AI原生游戏”愿景:内容不再是预设的剧本,而是基于每个人的个性化特征自我演化;玩家与创作者之间的界限彻底消失,人们在“先玩后造”的飞轮中,自然而然地步入创作的快乐。
Serious Tech, Silly Fun——这句Slogan既是Viggle AI的产品哲学,也是这家公司的底色:一面是以严肃硬核的技术,不断加深对世界的理解,推动底层能力的跃迁;另一面则是用这份技术,将创作力与快乐普惠给更多人。在技术与人文的交汇处,Viggle所追求的,正是让每一次玩,都成为创造力的自由释放。
此次,Z Potentials对话了Viggle AI创始人楚航,他与我们分享了自己的经历、技术思考和产品爆火背后的更多思考。Enjoy!
我一直很关心的一件事,是AI能不能真正理解这个世界,并通过这种理解让世界变得更好——比如创造一些能够带来快乐、让人愉悦的东西。
在2015、2016年的时候,我们去参加像NeurIPS、CVPR这样的学术会议,几乎没有太多人在做生成式方向,更不用说3D生成式了。当时我去展示自己的研究成果,大家通常会觉得这个很酷,但也会认为短期内看不到特别直接的应用价值。
在做了很多incremental的事情之后,会逐渐产生一种直觉,你会意识到自己其实一直在绕路,没有触达问题的本质。当这些更本质的问题逐渐浮现出来时,你会意识到必须要用更长期的方式去解决它。
当你把创作门槛降到足够低,同时提供足够快的反馈,并把能力交给用户去共建时,用户会自发产生很多你最初没有预想到的玩法。这一点是非常有意思的。
首先,你必须具备足够强的模型能力。如果底层能力没有达到一定门槛,所有上层的产品都是空谈。但仅有模型能力还不够,你还需要把它放到一个低门槛、可以被用户直接玩起来的场景中。模型能力与低门槛玩法结合在一起时,用户就能够快速获得反馈,并从中获得乐趣。
在过去一段时间里,大部分基础模型是基于语言模型构建的。即使是多模态模型,本质上也往往是把不同模态转化成语言序列的形式,再输入到语言模型中处理。但问题在于,这种方式和我们所处的真实物理世界之间存在差异。如果想让人工智能真正理解世界,就必须直接建模物理世界本身。
第三类,就是我们选择的路线,用数据驱动的生成式基础模型,从底层重构整个世界模型和世界引擎。也就是说,我们不是把AI嵌入到旧框架中,而是让框架本身就是AI原生驱动的。这是一种从第一性原理出发的重构方式。
我们认为,从用户体验上来说,更自然的路径从入口先玩起来→在玩中逐渐理解→再延展到创作和生成的乐趣。而且玩和创作之间的距离会越来越短。
AI原生的用户体验,我觉得最核心的一点是内容不再是固定的。在传统游戏里,用户进入之后,消费的是一个既定的内容。但在AI原生的体验中,首先,你在体验过程中会感受到内容是有生命力的。它会响应你、回应你。其次,这个世界的演化是基于你的个性化特征发生的。
我们最核心的追求,其实可以从几个必须成立的条件来理解。首先是绝对的可控性和一致性。其次是零成本、零延迟的使用体验。这些是不能妥协的。
01 多伦多大学读博、辗转Google/NVIDIA/Facebook,11年只做一件事
ZP:欢迎楚航!非常高兴今天能邀请到你。作为3D生成领域的深耕者,先和大家打个招呼,聊聊你的经历吧。
楚航:大家好,我叫楚航。在过去的这11年里,我基本一直专注在做3D生成式模型。11年前,我开始在多伦多大学的机器学习(Machine Learning)组读博士,那里也是现代人工智能的重要发源地之一。从那个阶段起,我就进入了生成式方向,并逐渐聚焦在一个我非常感兴趣的问题上:如何构建一个能够生成和模拟世界的系统。我一直很关心的一件事,是能不能真正理解这个世界,并通过这种理解让世界变得更好——比如创造一些能够带来快乐、让人愉悦的东西。
理查德·费曼(Richard Feynman)有一句名言对我影响很大:“What I cannot create, I do not understand”(我不能创造的,我就无法真正理解)。我觉得理解一件事最核心、最直接的方式,就是去创造它。因此,如果我们能够真正把世界建出来、模拟出来,那就是理解世界最有效的一种方式。所以我后来就逐渐专注在了“生成世界(modeling world)”这件事情上。
这件事情当然不是我一个人完成的。我的co-founder和几位核心成员,是这件事能够成立非常关键的一部分。他们很多人都长期在模型训练、系统工程和产品方向上深耕,有世界顶尖的模型训练和工程实践能力,能够真正把复杂的问题拆开、做深、做强,并最终落成规模化系统。我们彼此认识很多年,也有很强的信任和默契,所以后来一起创业,对我们来说其实是一个非常自然的过程。
ZP:你从一开始就对3D生成式方向感兴趣,那么当时博士方向是你自己选择的吗?以及在大概2015、2016年那个阶段,这个领域当时是一个什么样的状态?
楚航:是的,这是基于我个人兴趣逐渐走到这个方向的。当时其实是一个非常冷门的领域。在2015、2016年的时候,我们去参加像NeurIPS、CVPR这样的学术会议,几乎没有太多人在做生成式方向,更不用说3D生成式了。现在回头看这个方向已经不冷了,但在11年前确实非常小众。当时我去展示自己的研究成果,大家通常会觉得这个很酷,但也会认为短期内看不到特别直接的应用价值,它更像是一个比较前沿、比较遥远的方向。
但也正因为这样,我反而更坚定去做这件事。因为我一直比较倾向于做那些长期困难但正确的事情。如果一个方向在短期内不够热闹,反而说明它更值得长期投入,很多真正重要的事情,在最开始的时候往往并不拥挤,而是需要长期深耕,才能看到价值。
我其实一直对3D视觉这个方向很感兴趣。在更早期,3D视觉领域的大部分研究主要集中在重建、定位等问题上。我到了多伦多之后,逐渐接触到了生成式这一方向。当时我们都开始意识到,生成式模型其实更有潜力去触达问题的本质,而且具备更强的规模化能力。所以我把自己原本对3D视觉的兴趣,和生成式这一新兴方向结合起来,很自然地走到了3D生成式这个领域。
在博士期间,我其实有相当一部分时间是在工业界度过的,大概有一半时间在公司里做研究。我先后在Google、NVIDIA和Facebook都做过相关工作,方向也一直围绕3D生成式。从学校出来大概是5年前,我去了 Autodesk,继续做3D生成式相关的研究。
ZP:当时选择Autodesk是首选吗?背后的考虑是什么?
楚航:Autodesk本身在3D领域一直处于非常核心、甚至可以说是垄断式的地位,它的整个软件体系都建立在3D之上。当时他们也在布局3D生成式这个方向,而这个方向我算是做得比较早、积累也比较深的人之一。在当时这个领域还没有太多人投入的情况下,我一直在持续做这件事。所以他们邀请我以Principal Researcher的身份加入。
ZP:后来是什么样的契机,让你决定从Autodesk出来创业?
楚航:在大公司待过一段时间之后,有一个比较深的感受是,在大公司里,反而很难去做难而正确的事情。一方面,大公司里的人都非常优秀,资源也很充足;但另一方面,大公司往往会受到现有业务和组织惯性的影响,这其实是一种典型的创新者困境。而像世界模型这种方向,本质上是需要长期投入、并且从底层做变革的事情,它很难在原有体系中被真正推进。所以大概在三年前,我和我的co-founder一起决定出来创业,专注去做这件事情。
ZP:大家都在说要做难而正确的事情,但在当下那个阶段往往是非常孤独的。你当时是怎么判断这件事是正确的?或者说是什么支撑你坚持下来的?
楚航:我觉得做长期且正确的事情,往往是缺乏正反馈的。如果你做的是短期、incremental的事情,你周围通常会有很多正反馈,大家会认可你、鼓励你。但这些事情本质上大多是在现有路径上的优化,是显而易见的改进。而真正长期的事情,往往不会有那么多外部反馈,你需要更多依赖自己的判断和信念。
另外一个重要来源是,你在做了很多incremental的事情之后,会逐渐产生一种直觉,你会意识到自己其实一直在绕路,没有触达问题的本质。当这些更本质的问题逐渐浮现出来时,你会意识到必须要用更长期的方式去解决它。对我来说,当这种本质问题的认知变得越来越清晰的时候,就是我判断应该去做这件长期事情的时机。
如果你看整个3D领域,它的生态其实是建立在传统图形学引擎之上的。这套系统已经发展了三四十年,是一套高度规则化的体系。它确实非常成熟,但也带来了很多限制。这些限制会在整个生态中逐渐显现出来。如果你想从根本上做改变,我认为更有效的方式是对引擎本身进行重构,把这套基于规则的系统,转变为一个生成式的Foundation Model。
只有这样,才能真正打开一些过去无法实现的能力,一方面,是生成效果和用户体验的显著提升;另一方面,是让创作不再需要专业训练,而是让每一个人都可以参与到3D内容的创作中,实现真正的创作平权。但要实现这些,你必须在底层做非常大的创新,而不是在原有系统上做局部优化。
ZP:当时决定创业之后,你们在最初是如何定义要做什么的?在创业初期,你们对这件事情的目标是什么?
楚航:其实我们一直在做的事情是非常一致的,就是去构建一个能够理解和模拟世界的模型,也就是所谓的World Model,或者World Engine。这个方向我们从一开始就比较坚定,虽然当时还没有World Model这个说法,但本质上我们做的就是对世界的模拟。
视频来源:Viggle AI
我们在产品形态上是一个不断探索的过程。因为模型本身是需要长期训练的,你需要一步一步去解锁它的能力。你最终想要实现的是一个能够完整模拟世界的模型,但这个目标必须分阶段推进。随着模型逐渐具备新的能力,我们会思考如何把这些能力交到用户手中,并通过用户的使用来进行共建和迭代,从而建立起反馈系统。在这个过程中,我们也做过不同的产品尝试,比如可控视频生成等应用,本质上都是在探索如何把模型能力转化为用户可以直接使用的产品形态。
02 Discord 450万人涌入,Viggle成为全球第二大AI创作社区
ZP:Viggle最早火起来的产品是做什么的?用户用它来做什么?
楚航:这个其实就是刚才说的模型能力逐步解锁的一个结果。我们训练的是一个基础的World Model,是分代推进的。在第一代的时候,我们首先做的是模型验证。这个阶段我们选择了一个具体的切入点,以角色为中心的可控动画,也就是轻量的、可控的视频生成。这个方向本质上是对整个引擎架构的一次验证。当验证成功之后,我们发现这个模型非常适合用来做可控视频生成,于是就把它作为产品推了出来。
一开始我们其实并没有预料到它会爆火,但当我们把这个能力真正交到用户手中之后,用户会自己创造出各种各样的玩法。这也是这个产品非常有生命力的一点。用户的用法非常多样,尤其是偏娱乐方向。比如一开始有一个非常火的梗,叫Lil Yachty walk out,是一个rapper从演唱会舞台走出来的片段。最早有人把这个角色换成了Joker,这个内容传播得非常快。后来这个玩法逐渐演变成一种更大的文化现象。比如NVIDIA的黄仁勋,还有印度总理Modi,都亲自用我们的产品生成内容并进行传播。
视频来源:Viggle AI
这让我们看到,它逐渐成为一种新的表达方式,就是用户在用生成内容来表达自己。此外还有一些比较典型的爆款案例,比如国内B站的小明剑魔,以及北美体育圈的Incredible Gassy等等。这些现象说明了一点,当你把创作门槛降到足够低,同时提供足够快的反馈,并把能力交给用户去共建时,用户会自发产生很多你最初没有预想到的玩法。这一点是非常有意思的。

图片来源:Viggle AI,Character Refine功能
ZP:当时这个产品确实是全球范围内都非常火。在早期创作者的争夺中,为什么他们会选择你们,而不是去其他平台创作?
楚航:我觉得我们当时有几个比较独特的点。第一,我们的模型是完全可控且一致的。因为我们的目标是构建世界模型,这要求模型在结构上必须具备真正的物理和空间结构理解能力,从而实现可控性和一致性。这一点在第一代模型中我们就已经验证并解决了。
第二,我们的模型效率非常高,可以支持大量用户同时使用,并且能够快速给出结果反馈。这一点对用户体验非常关键。此外,我们还设计了一个很重要的功能remix。用户可以把已有的动作和角色进行组合,从而生成新的可控视频。这个方式的门槛非常低。对于创作者来说,他们不需要进行复杂思考,只需要简单组合,就可以产生创意。当低门槛和强反馈这两点结合在一起时,就构成了产品在早期能够快速运转起来的核心原因。

图片来源:Viggle AI,Mix功能
ZP:你们的Discord社区有450万人,是全球第二大,仅次于Midjourney。那么当时社区是怎么起来的?有没有哪个时刻你突然发现“wow,这个产品爆了”?
楚航:我们一开始是把产品做成一个Discord上的机器人。用户可以通过一个斜杠命令(/mix)来生成可控视频,使用方式相对比较简单。选择Discord其实有一个很现实的原因,在早期阶段,你不需要去搭建复杂的UI、社区系统等基础设施,Discord本身就已经具备了社区能力。同时,它非常适合在模型能力刚出来的时候,让用户快速参与进来进行测试和体验,是一个很好的early starting point。
上线之后,大概两个月左右,增长开始明显加速。几个月内,我们的Discord社区就增长到了全球第二大,整个服务器大概有400万到450万用户。在增长最迅猛的阶段,有一个非常直观的现象,Discord对服务器有每秒消息发送的限制,而我们在高峰时,每秒的视频请求数量超过了50个,已经超过了平台本身的限制。后来Discord官方团队直接联系了我们,说你们的社区规模增长太快,需要为你们的服务器做专门的分片(sharding)处理,把一个服务器拆成多个shard来支撑流量。当这些事情发生的时候,我们才真正意识到,这个产品已经爆发了。
ZP:事后来看,你会怎么归因这次产品成功?当时这个产品究竟做对了什么?
楚航:我们创业最初的核心其实是两件事,一是理解世界,从本质上去建模;二是用这个模型让世界变得更有趣、带来更多快乐。所以我们内部其实有一个很简单的理念,可以总结为World Model for fun。我们用世界模型来训练能力,同时也用它去创造让人快乐的使用场景。从结果来看,这次产品爆发其实验证了这一点。
首先,你必须具备足够强的模型能力。如果底层能力没有达到一定门槛,所有上层的产品都是空谈。但仅有模型能力还不够,你还需要把它放到一个低门槛、可以被用户直接玩起来的场景中。remix就是一个典型例子,它让用户无需专业训练,就可以通过直观的方式表达和创作。当模型能力与低门槛玩法结合在一起时,用户就能够快速获得反馈,并从中获得乐趣。从复盘角度来看,这两个因素,就是model能力以及for fun的使用场景,是这次产品成功的关键。
ZP:产品爆火之后,团队内部是怎么思考公司接下来要做什么的?后续的发展路径是什么?
楚航:对我们来说,这次爆发本质上是对我们方向和模型能力的一次验证。但实际上,当时我们才刚刚使用第一代模型。这个模型叫JST,它的第一代更多是一个能力验证版本。在我们设定的一些核心指标上,比如可控性和一致性,第一代模型只是刚刚把这些关键能力解锁出来。所以我们团队当时的判断是,这其实只是冰山一角。既然已经验证了方向是对的,那我们就应该继续沿着这条路径,把这件长期、难而正确的事情持续做下去。
03 用“World Token”定义世界模型,并要用它做出AI原生游戏引擎
ZP:世界模型这个词最近特别火,但每家公司说的都不太一样。在你的定义里,世界模型到底是什么?以及为什么在最近一两年,世界模型突然变成一个很火的方向?背后是什么样的原因?
楚航:我觉得这个词现在用的人很多,而且含义也在不断泛化。比如有些人提到世界模型,可能指的是更广义的、对世界有理解能力的智能模型,不一定局限在3D。但如果从最字面、最本质的意义来讲,世界模型是一个能够建模、理解并生成物理世界的模型,它和简单的视频生成是不同的。视频生成更多是在像素层面进行建模,而世界模型需要在生成过程中真正理解空间、运动以及因果关系等结构。所以它的核心在于,对世界结构的建模能力。
在过去一段时间里,大部分基础模型是基于语言模型构建的。即使是多模态模型,本质上也往往是把不同模态转化成语言序列的形式,再输入到语言模型中处理。但问题在于,这种方式和我们所处的真实物理世界之间存在差异。现实世界中的很多信息,是无法用语言精确表达的,比如空间结构、运动关系以及复杂的物理交互。因此,大家逐渐意识到,仅依赖语言模型的范式是有局限的。如果想让人工智能真正理解世界,就必须直接建模物理世界本身。这也是为什么世界模型在近几年逐渐受到越来越多关注的原因,因为它对应的是人工智能中一个非常关键、但此前没有被充分解决的问题。
ZP:现在做世界模型的大致有几条技术路线?
楚航:目前来看,围绕物理世界建模大致可以分为三条主要路线。第一类,是从2D视频生成模型延伸出来的路线。这条路线的优势在于视觉效果非常直观,直接在像素空间建模,生成结果看起来很真实。但它有一个比较大的问题,就是很难保证可控性和一致性。同时,它也难以满足实时交互的需求,比如低延迟、低成本的互动体验,因此很难支撑一个真正可玩的世界系统。
第二类,是基于传统3D引擎进行AI化改造的路线。这条路径在短期内看起来比较容易落地,也具备一定的现实价值,因为整个游戏和工业模拟领域,本身就是建立在过去30年的3D引擎体系之上。但它的核心问题在于,它无法摆脱传统系统的限制。这套体系本身具有很强的规则性、专业门槛和复杂性。用AI去改造它,本质上更像是在一个旧系统上不断打补丁,虽然可以优化效果,但没有从根本上重构生产和交互方式。
第三类,就是我们选择的路线,用压缩世界信息的World Token驱动的生成式基础模型,从底层重构整个世界模型和世界引擎。也就是说,我们不是把AI嵌入到旧框架中,而是让框架本身就是AI原生驱动的。这是一种从第一性原理出发的重构方式。
ZP:Viggle所选择的技术路线是什么?
楚航:我们这个架构叫做JST(ZP注:Joint Space-Time),是我们提出的一个时空联合建模的架构。它和大语言模型一个很大的不同在于,我们的模型是建立在我们称为的World Token上的。这些World Token和语言模型里的Token不一样,它们是具有明确的空间属性和运动属性的,所表达的是现实世界中物体的结构以及它们的运动方式。基于这一套表示方式,我们来进行生成式模型的预训练。同时,我们也把这套架构做到了端侧,使其能够支持快速推理和大规模交互应用。
和传统把所有东西转化为语言再做建模的方式相比,我们的模型最大的不同在于它天然具备空间和运动属性。与此同时,它也不同于传统的3D引擎,传统引擎依赖人工编写规则,然后在规则体系下进行模拟;而我们是数据驱动的,让模型从大量数据中学习世界的运行方式,包括空间结构和运动规律。在这个基础上,模型可以进行生成、编辑和交互,而且是端到端可学习、可优化的。这一点非常关键,因为只有这样才能从根本上降低创作门槛,同时提升世界生成和交互的上限。
ZP:你们的模型从第一代到第二代,中间经历了什么?最关键的突破是什么?
楚航:第一代模型对我们来说更像是一个架构验证。当时我们选择了一个比较适合验证的方向,即角色生成,来测试这套架构。通过第一代,我们证明了这条技术路径在原理上是可行的。
第二代则是在这个基础上的系统性完善,主要体现在三个方面。第一,能力范围扩展。第二代模型不仅可以生成角色,还可以生成角色+场景+行为动作,并进行驱动。第二是训练与效果提升。训练体系更加完善,模型效果有显著提升,解决了第一代中存在的一些瑕疵,整体质量达到了生产级水平,而且是完全可控、可编辑的。第三,也是非常关键的端侧实时能力。我们的目标是让这个模型能够大规模被用户使用,因此必须满足低成本、低延迟的要求。第二代模型已经可以实现端侧实时推理,支持用户在自己的设备上直接使用。
ZP:如果用用户视角,他们感知到的是一个游戏引擎?能不能描述当一个普通用户打开它,他看到的是什么,他能做什么?
楚航:你可以把它理解成一个世界生成引擎。但如果只是把它当成一个工具让用户去学习,其实并不是最直观的上手方式。从用户感知的角度来看,我们更希望它首先呈现为一种可以直接进入、直接体验、直接玩起来的AI原生游戏。这些AI原生游戏有几个特点:首先,制作门槛非常低。每个人都可以参与,不需要专业的制作能力,就能生成和创作属于自己的内容。其次,它具有AI原生带来的无限可能性。它不是传统那种内容固定的游戏,而是一个可以被持续生成、不断编辑和扩展的世界。在玩的过程中,你会感受到整个游戏在随着你的思路和偏好不断进化。所以我们认为,从用户体验上来说,更自然的路径从入口先玩起来→在玩中逐渐理解→再延展到创作和生成的乐趣。而且玩和创作之间的距离会越来越短。
ZP:那最开始这些可以玩的游戏是从哪里来的?是官方做的一些典型案例吗?
楚航:是的。其实我们最近也在思考这个问题。在游戏领域里有一个很经典的案例是Roblox(ZP注:一款于2006年Roblox公司发行的3D多人社区游戏)。我们从Roblox身上学到一个很重要的启发,要让用户先玩后造。如果一开始就教育用户去成为创作者、教他们如何制作,其实用户意愿会比较低。更高效的方式是通过玩建立兴趣、建立理解、建立对环境的熟悉感和归属感,然后再逐步走向创作。
这里面有一个非常关键的机制是玩家-创作者飞轮,玩家在玩的过程中逐渐成为创作者,而创作者又创造出更多内容,吸引新的玩家进入。所以对我们来说,不仅要关注模型和引擎本身的能力,还必须去理解什么是好玩?什么样的内容能真正吸引人、留住人?这本身也是对我们能力的重要要求。

(目前基于Viggle AI引擎直接生成的游戏内容,除了让每个人都可以创作游戏之外,整个游戏世界会响应、回应用户,不断展开、进化)
ZP:AI游戏,相比于传统游戏,最显著的体验提升是什么?
楚航:我觉得这里可以分成两类体验。第一类,是轻创作方向的体验。比如remix,其实是在用户已经熟悉的一些内容或玩法基础上,通过生成式模型,让每个人都可以有自己的表达空间。每个人都可以快速地进行创作,类似remix的方式去参与,这一类体验是比较容易理解和接受的。
但我觉得更有意思的是第二类,AI原生的玩法。因为我们的引擎本身是生成式的,并且基于World Token,它是可以自我演化的。在这样的系统中,你会发现游戏具有近乎无限的变化和可玩性。在这个基础上,就可以产生一种完全不同的互动体验,一种真正AI原生的互动体验,这也是我觉得更有潜力、更有意思的方向。
关于AI原生的用户体验,我觉得最核心的一点是内容不再是固定的。在传统游戏里,用户进入之后,消费的是一个既定的内容,比如一个剧情,这个剧情对所有人来说是一样的。但在AI原生的体验中,首先,你在体验过程中会感受到内容是有生命力的。它会响应你、回应你。其次,这个世界的演化是基于你的个性化特征发生的。它会根据你的偏好、你的行为,不断变化和发展。所以结果是每一次玩都会不一样,每个人的体验也都不一样。我觉得这才是AI原生真正能带来的核心体验。
ZP:回到产品层面,这个AI原生的游戏引擎,和我们长期想做的世界模型,未来会是什么关系?
楚航:它们之间其实是一个非常强的正反馈关系。一方面,AI原生游戏引擎是依赖World Model才能成立的应用形态。如果没有一个强大的World Model,这件事情是无法实现的,就像你要做agent没有语言模型一样,是不成立的。但另一方面,这个应用本身又会反过来促进模型的成长。当用户在这个系统里进行互动,会产生大量真实的行为数据和反馈。这些数据会成为模型持续优化、迭代的最重要养料,帮助模型在正确的方向上不断进化。所以两者之间是一个相互促进的关系,模型支撑应用,应用反哺模型。
ZP:你自己平时会打什么游戏?你觉得打游戏的快乐是什么?
楚航:我们整个团队,包括我和其他成员,都是非常着迷的游戏玩家。各种类型都会玩一些。比如开放世界类的游戏,我玩得比较多;角色扮演类的也玩得比较多。但如果说玩的时间最长的是DoTA,我和co-founder之前经常一起打。
我觉得游戏和很多现实中的事情,其实是有相通之处的。在游戏里,你是可以自己去决定要做什么的。你处在一个充满各种可能性的世界里,需要去探索。在这个过程中,你需要自己做决策,而随着不断探索,你会逐渐接近这个游戏世界的本质。你会发现其中的规律,并利用这些规律让自己做得越来越好。所以游戏的乐趣在于,一方面是自由探索的过程,另一方面是不断理解和逼近事物本质的过程。
ZP:不同游戏的乐趣是类似的吗?比如你现在做的AI原生游戏,和传统游戏的乐趣是一样的吗?
楚航:如果从本质上看,比如反馈机制、对规律的理解,这些底层逻辑可能是相似的。但具体到每一个游戏,它的乐趣形式一定是不同的。一个游戏之所以有意思,通常是因为它背后有一个特别有趣的灵魂,然后围绕这个灵魂演化出一些新的玩法。所以在具体形式上,这些乐趣是非常多样和有创意的。
我觉得在相当长的一段时间里,这种有趣的灵魂的根源,依然是来自人。我们做世界引擎,并不是去替代这个灵魂,而是希望创作平权。因为有趣的想法其实非常多,但过去实现这些想法需要大量人力、专业训练和很高的门槛。我们希望做的事情是把这些门槛抹平,让创作变成一种更普遍的能力。比如说,一个高中生,也可以通过这个系统,做出接近3A级体验的内容,用这种方式去表达自己。所以本质上这是一种新的内容创作方式。
ZP:你觉得打游戏和创业,有什么相似之处吗?
楚航:我觉得是有相似性的。尤其是创业,你的行动空间是非常大的。你是在一个复杂、充满各种可能性的环境里,需要自己去定义路径。在这个过程中,你是不断在迭代、在快速反馈、在升级认知的。你会逐渐理解一些之前没有理解过的规律,然后用这些规律帮助你更好地理解整个环境,也让你后面的路越走越顺。这一点,其实和游戏中的探索和成长是非常类似的。
04 “最大的竞争对手是我们自己”,World Model赛道刚刚开始
ZP:这个赛道现在非常热,我们看到World Labs刚融了10亿美金,Google有Genie3,Decart也拿了很多钱。你怎么看现在的竞争格局?以及5年、10年之后,这个赛道会是一个什么样的状态?它会是一个快速收敛的赛道,还是要继续探索很长时间?
楚航:这个赛道现在确实很热。但热本质上说明的是一件事情,大家开始逐渐意识到World Model是一个可以改变很多行业的基础能力,它已经不是一个遥远的概念了,但距离终局还有很大距离。我认为这个方向整体上还处在非常早期的阶段,而且大家在做的事情其实也不完全一样。
比如对我们来说,我们在做的是world model for fun,我们特别关注的是可玩性。也就是能不能真正和大量草根玩家、创作者形成一个共建的正反馈循环。我们比较相信的一点是最终能够走出来的,不一定只是那些技术上非常炫的方案,而是把扎实技术能力,真正转化为用户价值,让用户获得快乐、形成真实闭环和正反馈的系统。
ZP:视频模型的方向,有人追求画质,有人追求实时性。那在World Model这个领域,会不会也有类似的分化?还是会有统一的优化目标?
楚航:其实追求智能化的路径本身就不完全一样。比如在语言模型里,有的模型更谄媚,有的更严谨。大家也逐渐意识到,不同模型是有不同taste的。World Model也是一样的,一方面,它本身就会有不同的风格;另一方面,它的应用场景也是非常多样的。而我们选择的方向,是world model for fun,也就是把它做成一个真正好玩、可玩,并且可以被大量用户零成本、快速接入和使用的系统,并在这个过程中形成正反馈循环。这一点,我觉得是我们比较独特的选择。
ZP:如果我们是做for fun的方向,我们的模型最极致追求的东西是什么?同时,相对会舍弃什么?
楚航:我们最核心的追求,其实可以从几个必须成立的条件来理解。首先是绝对的可控性和一致性。其次是零成本、零延迟的使用体验。这些是不能妥协的。如果这些条件不成立,整个游戏体验就会变得不自然。你可以想象,一个游戏用户可能要连续玩10个小时甚至更久。在这个过程中,他的期待不是说某一两次结果是对的,而是整个过程始终稳定、一致,没有任何明显的错误或不一致的地方。
同时,游戏通常是多人在线的,是一个持续互动的过程,这对模型的稳定性提出了更高要求。还有一点非常关键,就是端侧推理。我们认为这是一个不可牺牲的前提条件。只有当模型能够在用户本地运行时,才真正意味着零成本。如果用户在使用过程中,每一秒都要为推理付费,那这种可玩的体验本身就无法成立。
同样,如果体验是通过流式传输的方式,比如把视频一帧一帧推给用户也不行。比如一个FPS游戏,当你移动鼠标时,如果画面需要延迟两三百毫秒、甚至更久才更新,那这个体验是完全不可接受的。所以如果要真正实现互动娱乐,这些条件必须全部满足。也正因为不同团队的出发点不同,大家在技术路径上的选择也不会完全一样。
如果是基础模型,它的通用性本身一定是存在的,这是不可避免的。但对我们来说,更重要的不是是否通用,而是优先关注什么能力。比如我们的模型更关注的是对世界的建模能力。而像从纯文本出发做大量想象、做ideation这样的能力,我们会更多结合现有的方法来实现。这其实就是一种取舍,不是不要某些能力,而是在不同能力之间做优先级的选择。
ZP:你认为世界模型对具身领域的影响会是什么?
楚航:我觉得从大的方向来看,大家追求的其实是一致的,都是在做对世界的建模和模拟。但因为切入点不同,所以路径和优先级会不一样。比如在具身智能(机器人)领域,你会非常在意物理精度,比如力的计算是否准确,能不能把策略迁移到真实世界的电机或机器人上。这些是他们的核心关注点。而在游戏领域,我们更关注的是:画面是否自然、体验是否流畅、整体是否好玩等等。所以本质目标一致,但在不同场景下,大家的优化重点和迭代优先级是不同的。
ZP:从长期来看,你觉得Viggle最大的竞争对手会是谁?
楚航:我觉得这个方向变化非常快,而且大家做的事情也不完全一样。所以从某种意义上来说,我们最大的竞争对手还是我们自己。最核心的问题在于你能不能持续比昨天更好一点、更快一点,更接近问题的本质。也就是你的自我迭代能力和进化速度,这是最大的竞争壁垒。
我们现在在做的事情是一个相对比较独特的方向,目前基本上是只有我们在做。至于大公司未来会不会进入,我觉得这不是最核心的问题。更核心的是,我们能不能持续把领先优势做大。这个行业变化很快,窗口不是别人给的,而是自己跑出来的。只要我们持续迭代、持续往前走,壁垒就会在这个过程中不断建立起来。
我觉得长期真正的壁垒,其实主要是两件事。第一,是模型本身的迭代速度。你能不能持续、更快地推出更好的模型,这是最底层、最根本的能力来源。第二,是能否和用户形成一个共建的反馈循环。也就是说,让用户在系统中真实地使用、产生反馈,并且这些反馈是有规模、有质量、有效率的。然后再把这些高质量反馈不断反哺到模型中,形成一个持续优化的闭环。所以本质上是模型迭代能力+用户反馈飞轮,这两者结合在一起,才会形成真正强的壁垒。
ZP:那么现在做的ToC产品是不是也在这个系统里面?它会成为这个反馈循环的一部分吗?
楚航:是的。因为你必须让这个东西可玩,而且要让大量用户真正参与进来去玩。只有这样,才能产生真正有规模、有质量、有价值的反馈数据。一旦你建立了这样的反馈体系,它相比于传统在实验室里离线训练模型的方式,效率是完全不一样的。
ZP:如果把时间线拉长到五年甚至十年,你希望Viggle成为一家什么样的公司?
楚航:我们现在的slogan是Serious Tech, Silly Fun。意思是用非常严肃、硬核的技术,去让大家获得快乐、能够轻松地玩起来。我们希望成为一家这样的公司,一方面,能够真正推动底层技术的发展,让模型逐步加深对世界的理解;另一方面,又能够把这些技术普惠给更多人,让他们获得创作能力、表达能力以及快乐。所以它其实是同一件事情的两面,既是底层技术的推进,也是面向大众的创造力释放。

图片来源:Viggle AI
ZP:你觉得世界模型最终会像大语言模型一样改变世界吗?如果会,它改变的方式是什么?会对人类社会带来什么样的影响?
楚航:我觉得世界模型会逐步在不同方向上产生影响。但从切入点来看,它很可能会先从互动娱乐和游戏开始。因为这个场景对实时性、交互性、沉浸感,以及构建世界、创造世界、降低门槛等方面的要求都非常高,是一个非常适合落地的场景。
但从更长期来看,它不会只停留在娱乐领域。因为这个模型本质上是在做对物理世界的建模与理解,所以它会逐渐渗透到更多领域,比如具身智能、机器人,以及各种和真实世界交互相关的场景。从更本质的角度来说,它带来的改变是改变我们如何创建和消费物理世界中的3D内容,以及我们与物理世界交互的方式。
05 炉边闲话
ZP:创业已满三年了,你觉得自己变化最大的是什么?
楚航:创业三年多一点,最直观的变化是人变胖了不少,头发也少了一点(笑)。很多朋友见到我也会说,比之前胖了。我自己有时候也会开玩笑说,这大概就是所谓的founder mode。但除了外在变化之外,我觉得更重要的一点是你很难再去保持一种既要又要的状态。创业的过程会不断逼着你,在各种可能性中去做取舍。以前可能会觉得,要把短板补齐,但现在我更倾向于找到最本质、最重要的事情,然后把自己的长板在这个方向上发挥到极致,把最关键的事情做到极致。
ZP:日常除了创业之外,有什么兴趣爱好吗?
楚航:创业之后,工作强度确实会比较高。有时候会有一段时间,一天只睡几个小时,没时间就吃两口泡面。尤其是我们有大规模算力集群在跑的时候,资源是不能浪费的,你需要一直盯着,确保这些资源用在最重要的地方。所以确实会有一些阶段,工作强度非常大。但同时,我们也很重视劳逸结合。因为我们发现,如果你过度沉浸在一件事情里,很容易陷入所谓的局部最优(local minimum)。有时候反而需要刻意抽出时间去放空、调整状态,从一个更高的视角重新审视问题。当你把视野打开之后,反而更容易跳出原来的思维局限。所以放空和劳逸结合,对我们来说是很重要的。
另外,我们本身做的事情就是和游戏相关的,所以不只是游戏,包括动漫、电影、电视剧这些内容,我们一直都在持续接触,没有落下。而且对我们来说,这也不只是娱乐,它本质上也是一种方式,让我们去理解什么样的内容能够打动人,以及可以用哪些不同的方式去打动人。
ZP:创业的过程中最难的时刻是什么?有没有想过放弃?
楚航:整个过程中,确实会有一些阶段是比较有压力的。有时候需要持续投入很长时间,才能等到一个拨云见日的时刻。但对我们来说,这更像是一种必经的过程。无论是我个人,还是整个团队,其实从来没有觉得这件事情难到需要放弃,或者说是不可能完成的。从战略层面来说,我们是比较乐观的。我们认为,这种曲折上升的过程,本身就是做成一件事情必须要付出的代价。另外,我自己在创业之前的人生中,也经历过一些非常艰难的时刻。当时甚至会觉得世界都要崩塌了。但当你经历过这些之后,会发现新的挑战其实不会再那么容易动摇你。所以我经常对自己说一句很朴素的话:吃饭睡觉,干就完了。
ZP:对你影响最大的一本书或一个人?
楚航:如果选一本书的话,在专业领域里,有一本对我影响比较大的书,叫《Multiple View Geometry in Computer Vision》(计算机视觉中的多视图几何)。这是一本文献偏基础的3D视觉入门书。一方面,它帮助我建立了专业上的基础;另一方面,它其实传递了一种很重要的思维方式,你可以通过不同视角下的现象,去推演这个世界背后的本质。我觉得这个思维方式是非常有意思的。
我平时比较喜欢看两类书,一类是历史书,一类是科幻小说。如果把我们的世界类比成一个sequence的话,历史书可以理解为把我们带到当前状态的那些prompt,而科幻书更像是对未来的rollout或sampling。我觉得这两类书对应的是过去和未来的两种不同视角。
关于对我影响比较大的人们,首先是我的导师们,在很多方面对我言传身教。最近影响最大的是我的co-founder。我们一起讨论问题的时候,他会不断提醒我、激发我去更深入地思考问题的本质,并且用更釜底抽薪的方式去解决问题。
ZP:你最喜欢的AI产品是什么?对OpenClaw怎么看?
楚航:我最近用得最多、也比较喜欢的模型是两个,一个是Opus 4.6,另一个是Gemini 3.1 Pro。像OpenClaw这类产品,我觉得它最大的价值是进一步降低了普通人使用 AI 的门槛,让更多人可以更自然地把 AI 用到日常任务里。对我个人来说,我暂时还没有遇到那种非用OpenClaw不可的任务;如果是要真正去构建具体的东西,我目前还是更常用Claude Code。
ZP:你最常听的播客?
楚航:我有一个比较喜欢的播客,叫Yannic Kilcher(最近更新不太频繁)。它有点像我们以前的reading group,会用比较深入、但又比较直观的方式,通过推演去讲解一些最新的技术论文。虽然有些内容偏技术,但即使不懂具体技术细节,把那些technical的部分剥离掉,还是可以获得一些其他层面的启发。
ZP:如果现在有一个也想做3D/世界模型方向的年轻Researcher在看这个访谈,你会给他什么建议?
楚航:我觉得最重要的是去做你真正感兴趣、真正觉得好玩的事情。同时,要多做一些具有长期价值、能够逼近问题本质的事情,而不是去追逐当下的热点词汇。如果你认同这个方向,也在做3D或世界模型相关研究,并且愿意做长期、正确的事情,也欢迎来加入我们。
ZP:了解到咱们近期也希望招募优秀的小伙伴加入,Viggle希望吸引什么样的人加入?最看重团队成员的哪些特质?
楚航:我们比较看重三种特质:第一,是爱玩,而且会玩。不仅是喜欢玩,还能从玩的过程中理解乐趣是如何产生的,理解人为什么会沉浸其中。第二,是有与众不同的独立思考的能力。很多事情一开始是没有标准答案的,也没有强反馈,这时候需要有独立判断、审美和好奇心,才能坚持做长期正确的事情,并最终做到卓越。第三,是愿意做长期正确的事情。很多重要的事情不会立刻带来回报,需要有延迟满足的能力。在别人还没有形成共识之前,你愿意先相信它,并长期坚持。
请注意,此次访谈内容已经过精心编辑,并得到了楚航的认可。欲了解更多关于Viggle AI的信息,敬请访问其官方网站 https://viggle.ai/。目前,正在招募更多热爱技术的年轻人加入,感兴趣的可以联系hang.chu@viggle.ai。我们也欢迎读者通过留言互动,分享您对本访谈或Viggle的看法。
Z Potentials将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。






