从“造机器人”到“做场景”,机器人创业逻辑彻底变了

机器人正从“单体专家”走向“通用基座”——Quan Vuong 分享了从 RT-2 到 π0.7 的技术跃迁,提出垂直机器人创业的新配方,并判断一场寒武纪大爆发已经开始。
本文编译自 YC 播客对 Physical Intelligence 联合创始人 Quan Vuong 的专访,他分享了从 RT-2 到 π0.7 的技术演进、真实场景部署经验,并提出“垂直机器人创业寒武纪大爆发”的判断。为了便于阅读文中 YC 方的提问统一简写为“主持人”。原文链接:https://www.youtube.com/watch?v=4EsUaur0nsQ

机器人创业的“新公式”
Quan Vuong: 我觉得今天创办一家机器人公司的方法论已经变了,而且接下来还会以更快的速度继续变化。原因很简单:现在做机器人的前期投入,已经没有过去那么高了。
主持人: 大家已经把太多时间花在数字世界里了。现在,或许正是开始认真思考“原子世界”、也就是物理世界的时候。你今天其实已经把“如何做一家垂直机器人公司”的打法直接讲出来了。
Quan Vuong: 这从一开始就是我们的使命——推动机器人行业出现一场“寒武纪大爆发”。
主持人: 说实话,直到今天我还是会被这件事震撼到。在 ChatGPT 出现之前,我甚至不确定自己这一生能不能看到这样的能力真的出现。
机器人行业的“GPT-1 时刻”是什么
主持人: 欢迎回到新一期 Lightcone。今天我们请到了一位非常特别的嘉宾——Physical Intelligence 的联合创始人 Quan Vuong。我们认为,这家公司很可能会把整个机器人行业带入属于自己的“GPT-1 时刻”。Quan,欢迎你。
Quan Vuong: 很高兴来到这里。我一直都很敬佩 YC。我们的使命,是打造一个模型:它能够控制任意机器人,去完成这个机器人在物理上有能力完成的任何任务,而且性能要高到足以真正服务现实世界中的人。
那么,机器人领域的 GPT-1 时刻到底意味着什么?在我们看来,它未必会像 ChatGPT 那样,以一个瞬间爆发的形式出现。更像是“剥洋葱”的过程:先从一个足够强的基础模型开始,这个模型拥有大量常识知识,在你的机器人上已经能在一定程度上工作;然后,你再建立一个“混合自治”系统,有点像今天的自动驾驶——大部分时间系统自主运行,必要时由人接管和纠正。
接下来,你把它真正部署到现实任务里。系统会犯错,但没关系。关键在于,让它持续暴露在真实世界的复杂性和各种边缘情况里。这样它每天都会变好一点点。最终,你会在某一天突然发现,它已经能够完全自主运行,并真正创造出巨大的实际价值。
主持人: 我觉得,或许有必要先给观众补一个背景:为什么机器人这么难。过去两年,这个领域其实已经出现了很多突破。简单来说,机器人问题大致有三层:一层是“语义理解”;二层是“规划”;三层是“控制”。语义理解这部分,随着大语言模型的发展,已经有了很大突破;规划也在进步;但控制必须实时发生,还要和不断变化的环境交互。能不能请你梳理一下,哪些关键论文让你们开始意识到:机器人行业的 GPT-1 时刻已经近了?
AI 是如何真正打开机器人之门的
Quan Vuong: 构建通用机器人的梦想,人类已经追求很久了。我们当然不是一个说“希望打造一个能在任意机器人上工作的模型”的团队。但我们很幸运,正好处在一个历史节点上:在这个时间点,这件事一次看起来真的有可能实现。如果往前回顾,较早的重要信号之一,是 SayCan 这样的工作。对我来说,这是一次非常明确的展示:语言模型里的常识知识,可以被带入机器人系统中,从而大幅降低对机器人专用数据的需求。
举个例子:如果任务是“我要去 YC 办公室录播客,需要经过哪些步骤”,你完全可以让语言模型先给出步骤和计划,而且效果很好。换句话说,语言模型最早进入机器人系统,是从“语义”和“规划”层面切入的。
但机器人最终还要面对一个更难的问题:控制。也就是说,你必须把这些高层规划,转化成机器人真正能执行的底层动作。于是后面就有了 PaLM-E 和 RT-2 这样的工作。它们真正证明的是:如果你从一个很强的视觉-语言模型出发,再用机器人数据去适配它,让它学会“说机器人语言”,那么视觉语言模型里已经学到的很多知识,真的可以迁移到底层动作控制上。
我特别喜欢 RT-2 的一个例子:桌上摆着几张名人照片,比如 Taylor Swift、英国女王,再放一个可乐罐。你对机器人说:“把可乐罐拿起来,放到 Taylor Swift 那边。”即便“Taylor Swift”这个概念在机器人训练数据里根本不存在,机器人也能完成这个任务。
还有一些例子是空间推理。比如你让机器人“把恐龙放到红色小车旁边”,这些对象在机器人数据里同样可能是完全没见过的,但模型依然能够理解并执行。所以,RT-2 和 PaLM-E 证明了:视觉-语言模型中的世界知识,确实可以迁移到机器人动作层。
主持人: 不过 RT-2 和 PaLM-E 本质上还是“单一机体”的成果,也就是它们只在某一种特定机器人上工作。那接下来的问题就是:机器人怎么扩展?尤其是,数据怎么扩展?
真正的突破,是从“单一机器人”走向“跨机体训练”
Quan Vuong: 我们当时有一个关键洞见:也许,不同机器人之间的数据并没有人们过去想象得那么不同。换句话说,如果训练数据里包含足够多的机器人平台,模型学到的就不只是“如何控制某一台机器人”,而是更抽象的东西——也就是“控制机器人”这件事本身。
这就是后来我们做“跨机体”方向的原因,也就是 Open X-Embodiment 和 RT-X 一类工作。对我们来说,这是个非常重要的节点,因为它一次显示:机器人领域里也可能存在类似缩放定律的东西。你终于可以开始在多种不同硬件平台上训练同一个模型,而不是永远只围绕一种机器人做优化。
主持人: 因为过去几乎所有实验室,都是围绕自己特定的传感器、执行器和电机构型来训练模型的,整个系统都和那套硬件强绑定,对吧?
Quan Vuong: 对。Open X 里有一个非常有意思的结果。你可以想象,有 10 种不同的机器人平台,每一种平台都采集了自己的数据,训练出一套只适合自己的策略。也就是说,你有 10 个“专家模型”。
接着,你再把这 10 种平台的数据全部喂给一个容量足够大的通用模型,让它去吸收这些数据。最后你比较一下:这个“通才模型”和那 10 个“专家模型”相比,谁更好?Open X 的结果是——这个通才模型反而好 50%。
主持人: 这太惊人了。因为在机器人里,能把模型在一台机器人上训好,本来就已经非常难了。
Quan Vuong: 是的。所以我才会说,我们很幸运,刚好处在这样的时刻。Open X 之所以可能,离不开整个机器人社区的支持。它其实是一次非常大规模的协作。
机器人圈里一直有个玩笑:如果你想让自己的博士多读两年,那就去搞一台新的机器人平台。因为从零把一台新机器人搭起来,到能稳定采数据,往往就要花掉一两年时间。照这么算,如果你想做 10 台不同平台,那就是 20 年。
主持人: 那么,能不能说 Open X 这个数据集在机器人领域的意义,有点像 ImageNet 对计算机视觉的意义?它很大,是一次跨多种硬件平台的大规模协作数据集。
Quan Vuong: 我还是觉得,ImageNet 在视觉领域的影响更大。原因有几个。一,ImageNet 不只是提供数据,它还提供了可以复现的评测标准;而在机器人领域,评测本身就是一个非常难的问题,Open X 并没有真正解决这个问题。二,如果你从整个机器人社区正在产生的数据总量、数据多样性和采集规模来看,Open X 其实仍然只是“沧海一粟”。
机器人真正的瓶颈,其实就是数据
主持人: 其实就连 GPT-1 当年,也是一个关键拐点。那时人们一次开始证明,模型内部真的会出现某些特定结构。比如 Alec Radford 发现,某个神经元会对应一种非常特定的输入和输出模式。也正是因为这些发现,后续关于模型规模和能力之间关系的“缩放定律”才逐渐站稳。而机器人领域现在最大的问题,听起来其实就是我们刚才一直在讨论的——数据。语言模型之所以能快速发展,是因为它们可以直接利用互联网上几乎全部可获得的文本数据,而且那个规模是极其庞大的。那么,如果机器人也要迎来真正的 GPT-1 时刻,你觉得需要的数据规模大概会是什么量级?PB 级吗?
Quan Vuong: 机器人数据稀缺的问题,我觉得可以从几个角度来看。
一,它其实包含两个问题:一个是“数据生成”的问题,另一个是“数据采集和留存”的问题。现实中,也许已经有很多机器人数据在不断产生了,但过去一直缺少足够的激励和基础设施,把这些数据系统化地记录下来,并整理成便于训练的形式。Open X 想解决的,就是这个问题:如果你手头已经有机器人数据,那么把它采集下来,并让它可以用于训练,是非常有价值的。
二,机器人和语言模型非常不同。语言模型可以直接利用互联网这个巨大语料库,但机器人并不存在一个“机器人互联网”。所以,机器人数据天然需要非常重的现实采集和运营投入。那这种方式到底能不能扩展?我的看法是,可以从价值角度来判断。
美国 GDP 大约是 24 万亿美元。假设我们真的解决了机器人问题,做出了一个可以控制任意机器人完成任意任务的模型,哪怕粗略估算,它只对美国 GDP 贡献 10%,那也是一个极其巨大的数字。正是因为这个潜在收益足够大,所以它完全值得行业长期投入资源去做机器人数据采集。
三个角度是,我们非常重视“跨机体”。这意味着,不只是模型本身,你的组织方式和基础设施也必须从一开始就具备吸收不同机器人来源数据的能力。这样反而更容易扩展。
举个对比:有些公司会围绕某一种特定硬件平台做深度优化,然后试图扩大规模。但这种做法其实一直不太容易真正扩起来。因为相比于去制造一千台相同机器人,更现实、也更容易扩展的路径,可能是让你自己先具备吸收“社区里已经存在的一千种不同机器人”数据的能力。
为什么“单机器人路线”未必更容易扩展
主持人: 这听起来确实很疯狂。因为即便是同一种设计的机器人,批次之间也可能因为硬件、舵机、软件更新而出现差异,而这些差异最后都会反映在数据里。这个问题你们怎么处理?
Quan Vuong: 我们之前在公司里做过一次机器人盘点,结果非常震惊——我们发现,根本没有两台完全一样的机器人平台。
而且在机器人圈里,大家有时会争论,到底是多机器人路线更好,还是单机器人路线更好。支持单机器人的一个常见理由是:单机器人更容易扩展。 但真实情况并不是这样。现实世界里,即便你只围绕一种机器人平台做优化,这个平台本身也会随着时间漂移。你会改硬件、改软件,最后就会发现,旧数据越来越难复用。因为在机器学习里,如果你想让模型从某个分布中学到泛化能力,你需要的是这个分布下足够多的样本。可如果你只有一个机器人平台,而且它每三个月就发生一次较大变化,那么你在每一个新分布里其实都只有很少的数据点。
反过来,如果你从一开始就假设:你的系统里会有很多不同机器人平台,那么模型学到的就更可能是一种更抽象的能力。它学到的不是“如何控制这一台机器人”,而是“如何控制机器人”这件事本身。这样一来,当它面对一台只有轻微差异的新机器人时,吸收和利用这些数据的能力反而会更强。 实际上,我们现在已经开始在这类机器人基础大模型里看到一些“涌现能力”了。这是个非常好的信号。我们观察到,不同数据来源之间开始出现很有意思的迁移现象。比如今天,已经有一些任务可以做到“零样本完成”。所谓零样本,就是你根本不需要为这个任务专门采集数据。而这些任务如果放在去年,可能还需要几百个小时的数据采集。
主持人: 能举几个例子吗?有没有视频可以看?
Quan Vuong: 如果我现在讲得太多,回去可能会被同事“找麻烦”,因为这些结果还没有正式发表,希望很快就会公布。所以我想先把悬念留一点。 但我可以说的是,这些都不是简单任务,而是真正有难度的任务——如果放在去年,确实需要几百个小时的数据采集。
主持人: 也就是说,Lightcone 算是一个提前听到这个消息的平台:PI 很快会有一些关于“涌现能力”的结果要发布了。 那至少能不能说一下,这些任务大概是什么风格?
Quan Vuong: 人是很容易骗过自己的,所以我们特意挑了几类风格不同的任务来测试。有些任务强调高精度;有些任务则要求机器人对场景中的多个物体进行推理。现在看起来,这些任务都开始呈现出类似的性质。 这点非常重要,因为这说明,出现的更像是一种更一般性的能力,而不是我们运气好,碰巧在某一个特定任务上成功了。
真实世界演示:洗衣与仓库
主持人: 你能不能帮大家理解一下:我们现在到底走到了哪一步?显然,我们还没有到机器人版 ChatGPT 的时刻。那么当前最前沿的状态到底是什么样?你还带了一些视频,想让大家更直观地感受一下。
Quan Vuong: 我觉得,我们现在所处的阶段是这样的:如果某个任务允许机器人出错,并且你能够建立一个“混合自治”系统——也就是机器人出错时由人接管并纠正——那么今天已经可以把机器人做到一个值得认真考虑规模化部署的水平。
我特别想举的两个例子,是我们和 Weave、Ultra 的合作案例。很巧,这两家公司也都是 YC 公司。我要先补充一个背景:PI 本质上是一家研究型组织,我们当然想专注于做最好的模型,但我们也不希望自己陷入“只做研究、不看落地”的状态。我们希望确保,自己做出来的模型,真的能在社会关心的任务上产生价值。对我们来说,一个很好的方法,就是和那些今天就想把机器人真正部署出去的公司深度合作。在这种合作里,我们双方会像同一支团队一样工作,信息流动非常自由,我们会一起为这些公司最关心的任务,把系统性能做到最好。
先说 Weave。你在视频里看到的,是我们和 Weave 一起打造的一套系统:它在一家真实洗衣店里,折叠各种各样的衣物。画面里你甚至能看到外面有人走动。 这个任务之所以难,是因为它的观察空间几乎是无限的。衣物是可变形物体,没有两件衣服是完全一样的,而且这里很多衣物在训练数据里都没出现过。
主持人: 我很喜欢这支团队,他们是我见过最强的苹果系团队之一。也许你可以顺便介绍一下 Weave 在做什么。
他们已经开始把一批机器人送进家庭场景了。我们之前就聊过,他们希望机器人能做这类家务任务。我觉得他们很大程度上也是受到了 PI 早期叠衣服演示的启发。所以现在看到他们真的和你们一起把这件事做出来,感觉特别奇妙。这也是一个很好的例子:你既需要模型能力,也需要数据采集,还需要硬件和系统集成,所有东西都得一起配合,才能把任务真正做成。
Quan Vuong: 是的,这也正好回应了“为什么机器人难”这个问题。机器人本质上就是一个非常难的系统工程问题。你必须让每个环节都工作良好,而且彼此协同,最后才能得到这样的结果。Weave 是一个非常出色的合作伙伴。
更让我震撼的是,其实我们并没有花太久就把这件事做出来。大概是我们设定目标之后,两周左右,就做出了一个已经足够能完成任务的模型和系统。直到现在,看到机器人真的在叠衣服,我还是会感到不可思议。因为在很长时间里,“叠衣服”几乎就是机器人领域的图灵测试。你几乎不可能像过去那样,用确定性的程序规则去穷举解决,因为状态空间实在太大了。而现在,我们已经证明了这件事是可行的。某种意义上,只要沿着这条路继续改进,机器人最终就会什么都能做。还有个有趣的故事:我们最早发布 π0 的时候,很多人都以为我们是一家“洗衣公司”,因为一个 demo 主要就是折衣服。其实,我们之所以一开始选择家庭任务,尤其是涉及可变形物体的任务,是有意为之。我们并不是只想做家庭场景,而是想让模型尽可能广泛适用。但家庭任务有两个好处:一,它特别直观,任何人一看“机器人叠衣服”,都能立刻理解这件事为什么有价值,也能理解它为什么难;二,它非常适合拿来测试模型的泛化能力。
主持人: 再聊聊 Ultra 吧。这是 Jared 的公司。这个视频让我特别喜欢的一点是:你可以看到一开始外面天还是亮的,视频虽然是 4 倍速,但总时长接近 100 分钟,等你拉到最后,太阳已经下山了。 这正是过去机器人里最麻烦的问题之一:系统对光照、环境变化非常敏感,一变就会影响视觉系统和语义理解。
Quan Vuong: 对。而这里有意思的地方在于,它已经达到了一个自治水平——机器人可以持续执行任务。这是可规模化的自治能力,已经到了可以认真考虑扩展部署的程度。
主持人: 这个任务不像叠衣服那么容易让人理解。你能不能介绍一下,视频里机器人到底在做什么,Ultra 又是一家怎样的公司?
Quan Vuong: Ultra 想做的是:让机器人更容易适配新任务。目前他们主要聚焦在物流领域,因为那里的劳动力短缺非常严重。我们这次一起做的任务是:当你从 Amazon 买东西时,有时会收到那种软包装袋。这个场景里,托盘上放着不同商品,机器人要把它们一个个拿起来,放进这个软包装袋里。随后机器会封袋,再把包装好的袋子放到左边,等待发货。这个任务很难,原因有几个。一,托盘里的商品种类很多。二,包装袋的开口其实很窄。你会看到机器人会用一种很有意思的方式,把物品轻轻“顶”进袋口。这背后需要非常好的场景理解,以及相当精确的运动控制。这个任务的另一个难点在于,它要求很高的自治水平——系统要连续运行一整天。当然,整个运行过程中仍然会有人类介入,但介入频率其实已经很低了。
主持人: 这不是实验室里的演示台,对吧?这是一个真实电商仓库,机器人真的在给真实客户的订单打包发货。
Quan Vuong: 对,这就是实际运营,不是实验室演示。
主持人: 我觉得这里特别有意思的一点是:这条路线,其实把机器人从一个特别难的工程问题,转化成了一个运营问题——也就是“我该如何识别合适的场景,以及如何收集合适的数据”。从某种意义上,这反而更容易规模化,因为你可以建立一套系统,去为很多不同任务采集数据。换句话说,现在的问题不再是:每来一个新任务,我都要重新设计一套极其复杂的工程系统;而是:我怎么把数据采集这件事规模化。
云端控制机器人(一个巨大突破)
主持人: 回到刚才这个观点,我觉得这其实是一个非常关键的转变:机器人正在从“为每一个任务单独设计复杂工程系统”,转向“识别应用场景、建立数据采集能力、不断运营迭代”的问题。这也意味着,今后做机器人,核心不一定再是每来一个新任务都重新解一遍复杂的工程难题,而是如何建立一套可复用的能力,让你能够不断为新任务采集数据、评估效果并快速迭代。 接下来我想聊一个很多观众可能不知道、但在机器人圈里会让很多人震惊的点。传统上大家都会认为,机器人必须本地实时运行,所以算力都得放在机器人机身上。但你们做了一件完全不同的事。能不能讲讲,你们是如何让大模型在这种实时系统里跑起来的?
Quan Vuong: 很多希望部署机器人的公司,最先问我们的一个问题就是:机器人本体到底该配什么算力单元?因为本地算力很贵,会直接增加 BOM 成本;而且他们也担心,模型变化很快,今天投入的硬件两年后就过时了。所以很多人听到后都会很惊讶:PI 现在几乎所有机器人评测,包括你们刚才看到的做咖啡、叠衣服、移动机器人导航这些复杂 demo,模型其实都是部署在云端的。不是办公室角落里的一台服务器,而是真正意义上的云数据中心。在高频控制回路里,机器人会向托管模型的 API 发送图像和语言指令,再拿回动作输出,并直接执行在机器人身上。
主持人: 这听起来真的很违反机器人行业的直觉,因为控制不是必须实时吗?
Quan Vuong: 对,所以这就要求我们必须把系统、硬件、模型开发和研究紧密耦合在一起。比如一个重要洞见是:你完全可以把推理延迟“埋”进机器人控制回路里。例如,假设我是一个机器人,我手里已经有接下来 100 毫秒要执行的动作序列。那么我其实没有必要等到这 100 毫秒全部执行完,才去请求下一段动作。我完全可以在只剩 50 毫秒动作还没执行完的时候,就提前向模型请求下一段。这样,当前 50 毫秒结束时,我下一段动作已经准备好了。另一个关键改进,是我们所谓的“实时分块”设计。简单来说,一个 action chunk 就是一小段连续动作。如果我当前手里有一段可以执行 100 毫秒的动作,那么执行到中途时,我就可以预测下一段动作,并确保前后两段动作是平滑衔接的。比如当前动作是往某个方向移动,那下一段动作也必须自然延续这个趋势,而不能突然跳变。
主持人: 也就是说,你们通过预计算把这个问题解决了。
Quan Vuong: 对,预计算就是其中一个关键算法改进。这使得云端模型推理真正变得可行。
主持人: 我是学计算机工程的,所以我不是那种特别偏算法的人。但一听到这种 pipeline 式的系统设计,我就会特别兴奋。真的太有意思了。而且这其实大大简化了机器人本体系统。你不再需要在机器人上堆那么多复杂的本地算力,不需要双操作系统,不需要一堆嵌入式和通用系统混在一起,也不需要像早期 Waymo 那样,后备箱里直接放一台服务器。对通用机器人来说,这种方案显然现实得多。这里我还想追问一下:视频左上角那一块看起来像是视频流反馈。那么这个机器人本地到底还有多少算力?它本地有很多处理吗,还是几乎就是个把图像传到云端的“傻终端”?
Quan Vuong: 就这个具体视频我不敢 100% 确定,但我倾向于认为,它基本上就是一个很简单的本地计算终端。至少我非常确定的是:即便它只是一个很简单的本地计算设备,我们也完全可以让整个系统跑起来。还有一个很有意思的地方:在和 Weave、Ultra 的合作中,一,我从来没有亲眼见过他们的机器人;二,我几乎也不了解这些机器人底层是怎么工作的——这其实是我有意为之。我甚至也不会特意去问他们是怎么采集数据的。因为我真正想验证的是:像 PI 这样的组织,能不能“空降”到对方现有系统里,只聚焦那些真正重要的事情,把系统做起来,而不需要先彻底理解对方整个底层架构。如果这件事成立,那它本身就是一种更可扩展的方法。
主持人: 也就是说,你把很多硬件控制层面的选择,和语义理解、规划能力解耦了,而且事实证明这套方法真的行得通。
Quan Vuong: 是的。说实话,就连我自己也对它能跑通感到惊讶。我们创业之初原本以为,真正的现实部署,至少要等到公司成立五年后才会开始认真考虑。因为这个问题太难了。但现在公司才成立两年,现实部署和扩大机器人数,就已经成了非常严肃的现实议题。整个进展速度比我们最初预期的快得多。
今天该如何创办一家机器人公司
主持人: 我们这个播客经常会聊:这些趋势对创业者意味着什么。所以我想问一个更现实的问题。如果今天有一个正在学计算机的大学生,听完这期节目之后觉得机器人很酷,也想做这件事,他应该怎么开始?他需要会机械吗?是不是可以买现成的机械臂和相机系统,再把 PI 模型接进去?
Quan Vuong: 我先补一点背景。机器人创业之所以一直很难,是因为这个行业传统上高度垂直整合。你需要自己的客户关系、自己的硬件、自己的自治系统、自己的安全认证,几乎什么都要自己做。所以进入门槛一直非常高。而我们想改变的是:我们希望提供一层“物理智能底座”,让整个社区都可以在这上面更快地给自己的机器人和任务接入自治能力。这样,大家就能把精力集中到其他更关键的问题上。所以我觉得,今天创办一家垂直机器人公司的方法大致是这样的。一,你必须非常了解现有工作流,因为机器人系统最终一定要嵌入真实工作流里。二,你要非常仔细地识别机会点:在一个现有流程里,机器人插入到哪个环节,能带来最大的价值?三,在硬件和数据采集上要足够务实。今天,你不一定非要一台非常昂贵、运动精度极高的机器人,才能开始做事。因为现在这些模型的反应性已经很强了,可以在一定程度上补偿机器人本体动作的不精确。四,你必须具备数据采集和评估能力,尤其是在真实部署环境里的评估能力。五,接下来要建立一个“混合自治”系统,让整个系统先达到经济上的盈亏平衡。
主持人: 是经济上的盈亏平衡,而不是纯技术上的“能跑起来”。
Quan Vuong: 对,因为只有这样,你才能进一步扩大机器人数。如果你每部署一台机器人都在亏钱,那就很难扩规模。这其实也是很多机器人公司过去到了增长阶段之后最大的问题:回本周期根本不合理。所以我会说,今天创办机器人公司的“公式”已经变了,而且还会加速变化。现在前期投入的重点,不再是极其昂贵的硬件,也不再是你必须自己从头到尾搭一整套传统自治系统。真正重要的是:更便宜的硬件、采数据的能力、做评估的能力,以及理解应用场景和切入点的能力。这也意味着,创业公司终于可以把资源集中到那些真正构成自己差异化的环节上。
机器人创业公司的大爆发即将到来
主持人: 既然你们已经把很多能力“解耦”出来了,今天做机器人公司不再需要从头到尾全部自己造,那么我们是不是正站在一场垂直机器人公司“寒武纪大爆发”的前夜?是不是会有成千上万家像 Ultra 一样的公司,去切入经济中的各种细分岗位,深入理解客户,打造合适的机器人系统,通过人机混合部署逐步走向全自动,然后在一个个垂直行业里建立公司?
Quan Vuong: 很有意思的是,当初我们写那篇博客时,“寒武纪大爆发”这个词其实在内部还引发过不少讨论。我们本质上还是比较学院派,希望对外表达时尽量谨慎。但如果你问我个人的判断,我确实相信:全球范围内、跨越大量垂直行业的机器人公司大爆发,真的会发生。原因很简单:现在做这件事便宜多了,而且它已经不再要求创业者必须有 20 年机器人经验。今天更重要的是:你要足够务实,动作够快,能做系统集成,真正理解客户想要什么,并且愿意尽早把系统部署到现实环境里。
主持人: 这让我想到个人计算机的发展史。今天的工业机器人,某种程度上还像上世纪七十年代的大型机和小型机:部署很贵、高度专用,主要服务大企业。直到个人电脑出现之后,整个行业才迎来真正的爆发。过去大家总说,机器人应该先去做“脏、累、危险”的工作;但听你这么讲,更关键的也许是——谁能先在某个垂直场景里实现盈利。
Quan Vuong: 我觉得这件事其实今天就已经在发生了。因为我们和机器人社区有很多接触,很多人来找我们聊,想知道基础模型到底该怎么做、怎么才能达到类似的自治水平。我们看到太多公司和业务场景,都迫切希望把机器人部署进去——哪怕机器人可以出错也没关系,因为需求真的非常强烈。
我非常相信,前面讲的这套路径——找准机器人应该嵌入的环节、使用更便宜的硬件、采集数据、做评估、建立混合自治系统、先做到盈亏平衡、再扩大机器人数——这套方法会在很多垂直行业里奏效。而且我们已经亲眼看到它正在发生,这件事非常令人兴奋。
主持人: 也就是说,你今天其实就是把一整套“如何做垂直机器人公司”的打法公开讲出来了。理论上,这套打法甚至可能被成功复制几百次、几千次。
Quan Vuong: 是的。而我之所以愿意公开讲它,就是因为我真的希望看到这场“寒武纪大爆发”发生,我们也希望成为推动者。对 PI 来说,如果未来失败了,最大可能并不是方向错了,而是这个问题本身确实太难,也许它根本不是几年、十年内能解决的,而是要再花 50 年。正因为如此,我们希望尽可能赋能整个社区,加快整个行业的进步。这也是为什么我们选择尽可能开放:我们会公开研究成果,也开源 π0 和 π0.5。还有一件事经常让人很惊讶:很多人问我,开源出来的 π0 和 π0.5,和我们内部研究人员真正使用的模型是不是不一样?答案其实是:没有区别。我们开源出去的预训练权重,就是研究团队内部使用的同一套预训练权重。因为我们是真心希望整个社区能更快进步,并最终促成那场机器人创业的大爆发。
主持人: 这真的很鼓舞人心。现在大家把太多时间花在数字世界里,而现在也许正是该认真思考“原子世界”的时候。归根到底,这是在思考:怎样把电子世界里的智能,转化成物理世界里的丰富和效率。
我会想到 Dario Amodei 那篇《All Watched Over by Machines of Loving Grace》。如果你真的去想象那篇文里最理想的未来形态,它未必只是电子世界里有一堆完美的智能体在替你思考,而更可能是今天我们眼前看到的这种东西:真正能作用于物理世界的智能系统。
Quan Vuong: 是的,而这从一开始就是我们的使命:推动机器人行业的“寒武纪大爆发”。也正因此,我们选择把重心放在模型上,因为我们相信,真正让机器人在现实世界中跨多种任务发挥作用的瓶颈,仍然是模型能力。这也是我们为什么一直坚持“跨机体”的原因。对我们来说,成功并不只是“PI 自己的模型在 PI 自己的机器人上完成了有价值的任务”。对我们而言,更大的成功,是我们的模型在别人的机器人上,也能完成真正有价值的任务——甚至那台机器人我们自己都不认识,但最终用户依然能因此受益。
还缺什么,以及下一步会发生什么
主持人: 我们也想聊聊这些机器人背后的人。公司是怎么创立的?你的联合创始人都有谁?大家分别带来了什么能力,才能去解决这么复杂的问题?
Quan Vuong: 我有时会开玩笑说,机器人背后的人其实也是机器人——当然不是认真的。PI 是一家挺不“传统”的公司。我们的创始团队规模比一般创业公司更大,其中有些人之前就在 Google 的机器人团队里一起工作过。对我来说,Google 机器人团队是一个非常重要的环境。很多今天看起来像“生命迹象”的东西,其实就是在那个环境里开始萌芽的,我们也在那时建立起很多关系和协作基础。团队里有 Locky,我们在考虑创业时认识了他,他对确保公司成为一家“好生意”非常重要。还有硬件负责人 Adnan,他之前来自 Anduril。对他来说,工作难度非常高。因为如果你想做跨机体,就意味着你面对的不是一种机器人平台,而是一整支高度异构的机器人队伍。我们从一开始就把组织设计成能够支持这种异构机器人体系,所以现在才能做成这件事。但老实说,这依然非常难,因为队伍里几乎没有两台完全一样的机器人。你得想办法保证所有东西都能平稳运转。
主持人: 所以总共有多少位联合创始人?
Quan Vuong: Brian、Chelsea、Sergey、我自己、Locky,还有 Adnan。
主持人: 解决这么难的问题,是不是必须要有这么多联合创始人?还是说,你们本来就是一支已经形成默契的团队,所以无论做什么,最后都会选择一起做?
Quan Vuong: 很多人都会问,为什么你们要“抱团”一起做。一个原因很简单:我们真的很喜欢彼此共事。工作会占据人生中很大一部分时间,所以我们希望和自己喜欢的人一起工作。二个原因是,这个问题实在太难了。我们每个人单独出去,可能也都能做成一家不错的公司,但如果大家联合起来,成功的概率会大很多。因为我们可以真正做到分而治之。某种程度上,这也是我们进展比预期更快的一个重要原因。
主持人: 从学术界或 Google 这样的大公司出来,一次创业,最大的变化是什么?
Quan Vuong: 对我们很多人来说,这确实是一次创业。最让我们意外的一件事,是我们发现:支持“大规模通用机器人”的基础设施几乎还不存在。
这件事从软件层面就开始了:你怎么采数据?用什么设备采数据?怎么管理数据?怎么给数据做标注?怎么观察数据质量?怎么跑评估?怎么建立运营流程?这些在软件行业里,往往已经有成熟公司提供工具和服务;但在机器人领域,当时几乎都没有。所以最后我们在 PI 内部自己写了大量软件。但我也认为,这反过来说明这里存在巨大的创业机会。比如远程遥操作服务、数据采集服务、数据标注服务——这些能力并没有必要让每一家机器人公司都从头重造一遍。
另一个让我很有感触的地方是:我们之所以能取得今天这样的进展,很大程度上靠的是整个模型开发生命周期中极其紧密的协作闭环。从“该为哪些任务采数据”,到“怎么采、用什么硬件采”,到“采完之后怎么查看数据、保证质量”,再到“怎么让训练真正能用上这些数据”,再到“训练之后怎么做评估”——这些环节必须全部紧密连在一起。而且机器人里的评估特别难,因为它的复杂度增长速度往往比你想象得更快。比如,一个能完成 2 分钟任务的模型,和一个能完成 20 分钟任务的模型,后者的评估难度绝对不只是前者的 10 倍,而是远远超过 10 倍。
再往后,还有一个非常关键的问题:你如何从评估结果里真正提炼出改进模型所需的信息?这也是我非常想做的一个方向——构建一个“自动化机器人研究科学家”。之所以说这是当前的一个瓶颈,是因为这类能力真的非常稀缺。它要求一个人对整个系统栈都有直觉和理解。所以我特别希望,未来能有一个模型,能够读入多模态数据,自动分析失败模式:机器人为什么会以这种方式失败?是因为采集的数据不对?还是标注方式有问题?还是训练方法有问题?更进一步,它不只是提出猜想,还能真的去尝试这些改法,看看假设是否成立。如果有这样一个系统,对我们会是一个非常大的解锁。我们有时还会在公司里开玩笑:要不要把所有会议都录下来,然后训练一个模型,专门去预测我们下一步最该做什么。
主持人: 其实完全有可能。比如把 OpenClaw、Obsidian、Markdown 文件、定制化的知识结构都接起来,再在后台编排一百个 agent,说不定很多事情就能跑起来。
Quan Vuong: 我觉得这里有两面。一方面,我们其实已经能看到一点苗头了。比如在一些比较简单的失败场景里,如果你能非常清晰地用文字描述机器人是怎么失败的,那么大语言模型已经能给出相当合理的下一步建议。但另一方面,这目前只对简单情况有效。根本原因在于,今天的大模型还缺少一种非常底层的能力:它们本质上还不是那种会在世界中行动、并看到自己行动后果的模型,尤其是在物理世界里。所以我认为,当前大模型仍然缺少一种对物理世界如何运作的根本性理解。而这恰恰是构建“自动化机器人研究科学家”所必需的关键组成部分。
主持人: 有趣的是,现在很多人都在讨论这件事。也许问题根本不一定是算法,而可能只是集成问题。也许只要有 Markdown、agent、MCP 之类的接口,很多东西今天就已经能做出来了。
Quan Vuong: 我们内部其实已经有一个类似的版本,而且我自己用得很多。曾经有一段时间,我在 API 调用上花了“多到有点不好意思”的钱。
主持人: 听起来你已经成了 YC 里那种最典型的人了。
Quan Vuong: 给你举个例子。我们现在内部有一个 agent,基本上扮演“预训练值班工程师”的角色。因为我们有一些非常大的预训练任务,而让这些任务持续稳定运行,本身就是一件很难的事,过程中会出现各种错误。所以我们做了一个原型系统,让它专门盯着这些训练任务,一旦发现问题,就自动采取某些补救动作。最让我惊讶的是,这个简单原型居然带来了大约 50% 的算力利用率提升。这对我们来说意义非常大。而且,这还只是一个很初级、很简单的原型。我觉得,未来在这个方向上还有太多事情可以做。
主持人: Quan,这期内容真的太精彩了。谢谢你,也谢谢 Physical Intelligence 做出的这些东西。最让我感到振奋的是,终于有一个研究组织在认真思考:怎么把这些能力开放给整个世界,去推动机器人创业真正迎来一场寒武纪大爆发。也许今天看这期节目的人,未来真的会因为你们的模型受到启发,做出一个能影响数十亿人的机器人产品。
Quan Vuong: 谢谢邀请。最后我最想传达的一点是:机器人行业已经发生了很大变化。今天,做机器人的成本已经显著下降,而且未来还会继续大幅下降。同时,它所需要的创业者能力,也和过去很不一样。现在更需要的是一种足够务实、足够灵活、能快速推动落地的能力。我们希望真正推动出无数新的机器人应用场景。如果你也想合作,随时欢迎来找我们。


AI 时代,产品经理这个岗位正在失去意义
