别再碰瓷100 亿美元“身价”的世界模型了，李飞飞这次手把手教你分辨

发布时间：2026-06-04来源：AI前线

整理 | 华卫

在过去 18 个月里，超过 100 亿美元资金流入了世界模型与机器人 AI 公司中。一个值得注意的规律是，使用世界模型的公司所获得的融资规模，甚至超过了专门构建世界模型本身的公司。

毋庸置疑的是，世界模型火了。但其实际概念一直众说纷纭，让人摸不着头脑。

今早，李飞飞和 World Labs 团队发表了一篇主题为《世界模型的功能性分类》的长文。她直言，“世界模型”成为当今 AI 领域中最重要、同时也最被过度使用的术语之一。上个月，MoE Capital 的 Henry Yin 和 Naomi Xia 也在博客中表示，大多数被冠以“世界模型”之名的东西根本不是真正的世界模型。

在这个当下，李飞飞这篇文章提供了一种难得的清晰框架，通过引入强化学习中的经典结构，完整解释了“世界模型”的定义，将当前纷繁复杂的生成模型、物理模拟系统与具身智能方法，从功能上划分为“渲染器、模拟器与规划器”三类世界模型。

对于正处于路线分化与资本竞逐中的 AI 产业而言，这不仅是一种技术分类，更像是一份关于未来主导权的路线图。在这一划分下，原本独立的不同技术路径首次被置于统一坐标系中比较。李飞飞同时指出，三者正在开始彼此融合：“当它们的边界消失时，它们将共同重塑更宏大的东西：机器智能与其所处物理世界之间的关系，这是空间智能的长期演进轨迹。”

而在她看来，“终点是一个统一的世界模型：一个基础模型，既能渲染照片级真实视图，又能生成物理准确的结构，还能规划行动序列，并根据下游需求在不同输出模式之间切换。”

她在文末点出，“语言让机器能够谈论世界。而世界模型，将让机器最终能够理解、想象、推理并与世界互动。”其背后隐含的判断也相当明确：真正决定下一阶段 AI 上限的，不是更会“说话”的模型，而是更接近物理真实的“模拟能力”。

以下是原文内容编译，我们在不改变原意的基础上进行了编辑。

世界不是由语言构成的

在此前的一篇文章中，我们曾论证，空间智能是人工智能的下一个前沿，而世界模型是通往这一目标的路径。在这里，World Labs 团队和我希望再深入一层：在如今被构建并被称为“世界模型”的众多事物中，究竟哪些功能性组件真正构成了这种能力，以及每一部分分别用于什么？

语言模型赋予机器对概念、词汇和推理的非凡掌控能力，但无论是虚拟世界还是真实世界，物理世界运行在一种完全不同的底层结构之上。语言模型学习的是文本的统计结构，而世界模型学习的是时空的统计结构：光如何落在表面上，一个花园从从未被相机捕捉过的角度看起来如何，物体如何对力作出反应并遵循物理定律。

这使得“世界模型”成为当今 AI 领域中最重要、同时也最被过度使用的术语之一。计算机视觉、机器人学、强化学习和生成式 AI 都声称在构建世界模型，但各自指代的却是完全不同的东西。一个能够生成华丽但物理上不可能火焰的视频模型，一个即兴生成可玩游戏的语言模型，以及一个忠实模拟燃烧过程的物理引擎，都会被称为同一个名字。

古希腊人从未就世界由什么构成达成一致，是火、水还是不可分割的原子，因为“世界”从来就不是一个单一事物。它始终只是一个替代性概念，用来指代某个思想家需要进行推理的整体。AI 在此刻继承了同样的问题，而此时这个领域恰恰最需要精确性。

分类之下的循环

要理清这种混乱，可以从一个比上述任何技术都更古老的图式开始。强化学习教材包括 Sutton 和 Barto 的经典著作，几十年来一直使用类似的图来描述智能体如何与世界交互。这个图的正式名称是“部分可观测马尔可夫决策过程”（POMDP），而“世界模型”这一术语最初正源于这一传统。

一个智能体可以是人、机器人或软件系统，来采取行动。这些行动会影响世界的状态。智能体永远无法直接看到状态。它所接收到的是观测：落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测会引导新的行动，如此循环往复。

“状态”这个词需要展开说明，因为它在不同领域中的含义会有所变化。这里指的不是化学中的状态（固态、液态、气态），而是物理学和机器人学中的状态：在某一时刻对世界正在发生的一切的完整描述，包括每一个物体、每一个位置、每一个速度、每一个属性。状态是世界的底层现实；在原则上是完整的，但对其中的任何智能体而言都不可直接观察。观测是智能体对这一现实的部分视图。行动是智能体对此作出的响应。

这个循环从智能体到行动到状态、再到观测，然后回到智能体，构成了现代“世界模型”这一术语的结构基础。这个短语本身更早，可以追溯到 Kenneth Craik 在 1943 年提出的观点：心智通过运行现实的“小规模模型”来进行推理；这一思想在 1980 年代末到 1990 年代初被引入神经网络领域。这个循环也解释了人们今天如何使用这一术语：如今被称为世界模型的不同事物，其实是这个循环的不同投影，每一种输出其中的不同部分。

世界模型的三类功能

第一类世界模型是“渲染器”。渲染器输出的是观测，以供人眼观看的像素形式呈现，其最重要的指标是视觉保真度。一个将文本提示转换为电影级航拍镜头的视频模型就是渲染器。像 Google 的 Genie 3 或 World Labs 自己的 RTFM 这样的交互式系统也是如此，它们能够在用户输入条件下实时生成画面。这类模型并不具备对三维结构的显式理解。它们生成的是“看起来是什么”，而不是“实际上是什么”。航拍镜头中的建筑从上方看可能完美无瑕，但一旦试图在城市中行驶，这些结构就会崩塌。

第二类是“模拟器”。模拟器输出的是状态：一种在几何、物理或动态上都忠实于世界的表示，人类和计算机程序都可以对其进行计算和交互。渲染器的契约是纯视觉的，而模拟器的契约是结构性的，它要求几何在检查下成立、物理遵循牛顿定律、动态行为符合世界在物理规律下应有的表现。模拟器同时服务两类对象：一类是人类专业人士，如建筑师、设计师、电影制作人和游戏开发者，他们需要超越视觉合理性的精确性；另一类是计算机程序，如强化学习智能体、机器人控制器和自动驾驶系统，它们将模拟器作为训练环境，在其中以规模化方式与世界交互，测试那些在现实中危险、昂贵或不可能执行的场景。

第三类是“规划器”。规划器输出的是行动。在给定观测和目标的情况下，规划器回答智能体下一步应该做什么。在很多方面，它是渲染器的反向过程：渲染器以行动为输入生成观测，而规划器以观测为输入生成行动，从而闭合感知—行动循环。视觉 - 语言 - 动作模型、基于模型的方法以及新一代的 World Action Models 都是在尝试构建规划器，能够在非结构化世界中决定机器人该做什么的系统。

这三类涵盖了当前实际落地的大多数系统，这种区分在实践中也很有用。然而，它们在根本上并不是彼此独立的。关于世界如何运作的同一底层知识，几何、物理和动力学支撑着它们全部。一个能够从任意角度渲染杯子的模型，从原则上也应该能够模拟杯子被推动时会发生什么，并规划一只手去抓起它。越来越多最有趣的研究，正是有意模糊这三者之间的界限。

为什么模拟是关键？

在这三类中，模拟器获得的公众关注最少，却是三者中最具决定性的。这篇文章正是要讨论这种不对称。

渲染器在商业上最为成熟。大量图像或文本生成视频的产品正在消费级和企业市场快速扩张。Google 的 Nano Banana 模型已经将高质量图像生成能力带到了可能数亿用户手中。技术是真实的，市场也是真实的。然而，渲染器优化的是视觉合理性而非物理准确性，这一上限非常重要。它们的输出美丽，但无法用于设计建筑或训练机器人。

规划器最具吸引力，同时也最为初期，它与快速发展的机器人学习领域紧密相关。过去两年中，该领域展示了许多看起来令人印象深刻的机器人演示视频，但需要坦诚地看待这些演示的实际含义。几乎所有演示都局限在高度受控的实验室环境中，使用有限的物体集合和短任务周期。没有任何系统在现实世界部署所需的复杂性、变化性或持续时间上得到验证。从令人惊艳的演示到在厨房、仓库或手术室中可靠工作的机器人之间，仍存在巨大的差距。尽管如此，商业投入依然巨大。一批资金雄厚的新进入者正在竞相推出通用规划系统，而最大的基础设施玩家则在更广泛的模拟体系之上布局规划能力。一个能够进行规划的机器人，才是一个能够工作的机器人，整个行业都在争夺这一目标。

模拟正是连接两者的桥梁。如果说语言是对世界的抽象，像素是对世界的投影，那么几何、物理和动力学就是世界本身。模拟器必须在这一层面运作：这是一个结构性的骨架，从中既可以导出视觉外观（供渲染器使用），也可以导出行动结果（供规划器使用）。

一个掌握了模拟能力的模型，可以将其理解投射为供人类使用的像素，也可以投射为供具身智能体使用的行动预测。而一个只掌握渲染或只掌握规划的模型，则无法做到这两点。其商业空间巨大。仅 NVIDIA 的 Omniverse 就瞄准了公司估计超过一万亿美元的潜在市场，涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计以及药物发现等领域，都依赖某种形式的模拟。

该领域最困难的开放问题也集中于此。具有明确几何、材料属性和物理标注的三维数据，相比渲染器所依赖的互联网视频要稀缺得多。“仿真到现实”的差距仍然存在，即模拟中的行为与现实中的行为之间的差异。在此基础上，生成式模拟器还引入了新的风险：AI 生成的几何可能看起来正确，但却包含自相交或尺度错误，从而导致物理行为毫无意义。多物理场的大规模模拟刚体、可变形物体、流体和布料相互作用，在计算成本上仍比单一领域模拟高出数个数量级。

在 World Labs，我们的 Marble 是进入这一领域的第一步。它可以接受多模态提示（文本、图像、视频或空间草图），生成可探索的三维环境，同时输出用于视觉探索的 Gaussian splats，以及供物理引擎使用的碰撞网格。但 Marble 只是一个开端，整个领域正在书写一条更长的轨迹，渲染、模拟与规划之间的界限正在逐渐消融。

界限正在崩塌，接下来会发生什么？

未来还会有更多发展。当前该领域最重要的趋势是，这三类正在开始彼此融合。共同的洞见是：渲染世界、模拟世界以及在世界中行动所需的知识，本质上是相同的。延续之前的例子，一个真正理解杯子如何放在桌面上的模型（包括其几何、材料属性、受力响应等），应该能够从任意角度渲染该杯子，模拟推动它时会发生什么，并规划一只手去抓起它。这三类其实是同一底层理解的三种投影。

例如，来自多个机器人实验室的一些最新工作已经表明，至少在概念上，一个预训练的视频渲染器可以作为联合世界与行动预测的基础，从而在渲染器与规划器之间建立桥梁，让同一个模型既能想象会发生什么，也能决定该做什么。World Labs 的 Marble 已经能够从一个模型中同时输出 Gaussian splats 和碰撞网格，从而打破了渲染器与模拟器之间的界限。每一层都在从被动输出转向交互系统：渲染器变得可由行动条件控制，模拟器生成的世界更加可控和可编辑，而规划器则从简单反应转向更具推理能力的决策。

其逻辑终点是一个统一的世界模型：一个基础模型，既能渲染照片级真实视图，又能生成物理准确的结构，还能规划行动序列，并根据下游需求在不同输出模式之间切换。当然，我们仍将面临诸多挑战。数据分布极不均衡：渲染器拥有海量互联网视频，而模拟器和规划器却严重缺乏三维资产和机器人演示数据。对视觉美感的优化，可能会牺牲机器人或高保真模拟所需的精确性。在同一架构中调和这些张力，是当今世界模型研究中最核心的开放问题，也是 World Labs 在推进 Marble 过程中试图解决的方向。

方向已经非常清晰。自 1980 年代末以来，该领域一直在押注：只要拥有足够丰富的世界模型，智能体就能够观察世界、构建世界并在其中行动。如今，这一“重大赌注”正在驱动新一代研究，其力量来自正在发生的融合：三条原本独立的研究路径，各自已经支撑起数十亿美元产业，开始表现得像一个整体。当它们的边界消失时，它们将共同重塑更宏大的东西：机器智能与其所处物理世界之间的关系，空间智能的长期演进轨迹。

语言让机器能够谈论世界。而世界模型，将让机器最终能够理解、想象、推理并与世界互动。

参考链接：

https://x.com/drfeifei/status/2062247238143996275

声明：本文为 AI 前线整理，不代表平台观点，未经许可禁止转载。

会议推荐

企业级 Agent 落地，绕不开 4 个真实的工程问题！如何在 Agent 安全性和可用性之间找到平衡点？Agent 需要什么样的记忆系统才能真正理解上下文？如何通过算法压榨实现智力增量与成本控制的极致平衡？多 Agent 协作，如何做到可观测、可治理、可控制？6.26-27 AICon 上海站，国内头部公司的 Agent 实践，一次说透。

今日荐文

Agent正把基础设施逼到极限！GitLab盈利大涨后裁员350人，下一代Git重构已启动

英伟达甩出物理 AI 王炸！Cosmos 3 全模态模型开源，Agent Tookit 补齐工具短板

拒绝蒸馏！微软发布自研MAI-Thinking-1追平Claude Opus 4.6：完全从零训练，不沾任何第三方模型输出

一月烧掉5亿美元才醒悟：把 Token 当 KPI是AI转型里最贵的坑！亚马逊连夜撤下排行榜

你也「在看」吗？👇

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。