深度|SemiAnalysis创始人万字访谈:中美算力终局推演,美国短期有先手优势,中国将依靠供应链规模最终反超

图片来源:Dwarkesh Patel
当华尔街还在纠结英伟达的季度财报是否见顶时,有两个人已经钻进了全球半导体供应链的最底层,在那叠成千上万张的订单与电力协议中,窥见了未来十年的权力版图。
一位是科技圈公认最会提问的博主 Dwarkesh Patel,另一位则是半导体研究机构 SemiAnalysis 的 CEO Dylan Patel——那个被传闻中“比大厂更了解大厂产能”的男人。
在这场对谈中,Dylan 抛出了一系列足以让投资者失眠、让发烧友愤怒、让硅谷巨头冷汗直流的观点。
GPU 并非电子垃圾,它可能像古董一样升值。 传统金融圈认为 GPU 两年就得折旧,但 Dylan 指出,由于 AI 架构的飞速进化,同样的 H100 跑新模型的效率远高于旧模型,导致旧硬件产出的 Token 价值随时间不降反升。
全球消费者正在被迫缴纳“隐形 AI 内存税”。 为了满足 AI 对 HBM 内存近乎疯狂的需求,厂商正在牺牲普通内存产能,这将直接导致智能手机和 PC 的出货量腰斩,同时价格飙升,本质上是全世界在为 AI 实验室的算力成本买单。
Google 犯下了足以载入史册的失误。 Google 早期因为不相信 AI 收入能爆发,竟然把百万颗珍贵的 TPU 产能卖给了对手 Anthropic,这种“自家后院起火”的行为让它在算力竞赛中一度陷入被动。
AI 扩张的终极瓶颈不是电力,而是光刻机。 哪怕你有无限的电力和土地,每 1GW 的算力增量都死死卡在约 3.5 台 ASML 的 EUV 光刻机产能上,只要这个位于荷兰的供应源头不点头,全球的 AGI 梦都得在门口排队。
中美算力竞赛存在一个残酷的时间陷阱。 如果 AGI 在 5 年内实现,拥有先进制程的美国将锁定胜局;但如果时间拉长到 2035 年,拥有完整本土供应链和恐怖扩产规模的中国,极有可能在成熟制程的算力红海中靠规模实现反超。
马斯克的太空 GPU 构想在十年内只是个昂贵的幻梦。 在芯片供应受限的世界里,唯一的考核指标是“部署速度”,将精密且易损的芯片运上天进行复杂的激光通信,其经济性远不如在德州荒野里直接插上燃气轮机。
未来的“智能”将呈现出极度的物理集中化。 即便未来有几百万台机器人行走在街头,它们的大脑也可能并不在金属躯壳里,而是通过高度集中的数据中心进行远程驱动,这种“思考”与“执行”的彻底分离将重塑社会结构。
我们将其整理为这篇推文,带你直击 1 万亿美元豪赌背后的真相。
资本支出的时间差:千亿美金是如何转化为算力的?
Dwarkesh Patel:好吧,这是“我的室友教我半导体”这一期节目。
Dylan:这也是这一套设备的告别节目。
Dwarkesh Patel:是啊,用过之后我就觉得:“我不能再用这个了,我得赶紧离开这儿。”Dwarkesh可不接受别人用剩下的东西。
好的,Dylan是Semi Analysis的CEO。Dylan,我现在最想问你的一个问题是:如果把四大科技公司——亚马逊、Meta、谷歌、微软——加在一起,你最近发布的预测显示,它们今年的资本支出总额大约是6000亿美元。而按照目前每年的算力租用价格来算,这差不多相当于接近50吉瓦(GW)的算力规模。但显然,今年我们不可能一下子部署50吉瓦。所以可以推测,这些钱其实是在为未来几年逐步上线的算力买单。所以我有一个关于时间线的问题:这些资本支出到底是在什么时候真正转化为上线的算力?
实验室那边也有类似的问题。比如OpenAI刚刚宣布了1100亿美元的资金规模,Anthropic也刚刚宣布融资300亿美元。如果看它们今年能够上线的算力规模——这个数字你应该更清楚——但是不是说,它们今年总共也只有大约4吉瓦?感觉如果按租用算力的成本来算,OpenAI和Anthropic今年所拥有的算力,如果要维持每吉瓦100亿到130亿美元的算力支出,这些单次融资就已经足够覆盖它们一整年的算力成本了。而且这还没有算上它们今年将产生的收入。
所以帮我理解两件事:第一,大科技公司这些资本支出真正转化为上线算力的时间尺度到底是什么?第二,如果一个1吉瓦数据中心一年的租用成本大约是130亿美元,那这些AI实验室为什么还要筹集这么多钱?
Dylan:当你谈到这些超大规模云厂商的资本支出时,大约是6000亿美元。如果再把整个供应链加进去,总规模大概接近1万亿美元。其中一部分确实是用于今年立即上线的算力——比如今年要采购和支付的芯片,以及其他相关资本开支。但同时也有大量前期准备性质的资本支出。例如,当我们说今年美国将新增大约20吉瓦算力时,其中一部分费用其实并不是今年支付的,而是在前一年就已经支出了。
举个例子:当你看到谷歌有1800亿美元的资本支出计划时,其中很大一部分其实是:为2028、2029年的燃气轮机提前支付定金,为2027年的数据中心建设支付费用,为未来签订电力采购协议(PPA)、预付款以及各种长期准备工作。所有这些投入,都是为了让他们在未来能够实现极快的扩张速度。这种情况不仅适用于这些超大规模云厂商,也适用于供应链中的其他公司。所以总体来说:今年大约会新增20吉瓦算力部署,其中很大一部分来自hyperscalers,也有一部分不是。而这些公司的最大客户其实是Anthropic和OpenAI。
目前大致规模是:Anthropic大约在2吉瓦左右,另一个大约2.5吉瓦,还有一个大约1.5吉瓦。它们都在试图扩大到更大的规模。如果你看Anthropic最近几个月的表现:它的收入新增了大约40亿到60亿美元。如果我们简单画一条直线来外推:假设未来每个月再增加60亿美元收入——实际上很多人会说这种假设还偏保守,认为增长会更快。这意味着在接下来10个月里,它们可能会新增600亿美元收入。如果按照媒体此前报道的Anthropic当前毛利率来计算,那么为了支撑这600亿美元收入所需的推理算力,大约意味着:约400亿美元的算力支出。如果算力租用成本按每吉瓦约100亿美元计算,那么:400亿美元算力≈需要新增4吉瓦推理算力。而且这还是在一个假设之下:他们用于研发和模型训练的算力规模保持不变。因此从某种意义上说,Anthropic到今年年底需要达到远高于5吉瓦的规模。实现起来会非常困难,但理论上是可能的。
Dwarkesh Patel:我能问个问题吗?如果Anthropic今年年底实际上达不到5吉瓦算力规模,但它又确实需要这么多算力——既要支撑超出预期的收入增长(甚至可能更高),又要维持研发和训练能力,以确保明年的模型竞争力——那这些算力会从哪里来?
Dylan:Dario(Anthropic的CEO)之前在你的播客上其实表现得非常非常保守。他当时的意思是:“我不会在算力上疯狂下注,因为如果我们的收入增长在某个时间点、以不同的速度出现变化,我不希望公司因此破产。我希望在扩张过程中保持负责任的态度。”但从现实来看,在算力布局上,他确实没有像OpenAI那样激进。
OpenAI的做法基本是:“先把这些疯狂的合同全签下来再说。”结果就是:到今年年底,OpenAI能获得的算力会远远多于Anthropic。那Anthropic要怎么补足算力呢?他们就必须去找以前可能不会合作的一些、质量较低的供应商。理想情况下,Anthropic过去主要合作的是质量最好的供应商——基本就是Google和Amazon。而现在情况变了。整个行业,那些世界上最大的公司——比如Microsoft——已经在整个供应链扩张,并且开始和一些新的参与者合作。OpenAI在这方面一直更激进:他们和很多不同的供应商合作。他们有大量来自Microsoft的算力;也有Google和Amazon的资源;但他们同时还有大量算力来自CoreWeave和Oracle。甚至他们还和一些看起来很“随机”的公司合作。比如SoftBank Energy——这家公司以前从来没有建过数据中心,但现在他们正在为OpenAI建数据中心。除此之外,还有很多,比如Nscale等等。OpenAI从各种渠道拿算力。所以Anthropic现在其实有点陷入困境:因为他们之前在算力方面太保守了,不想“疯狂扩张”。
而另一方面,去年下半年金融市场曾经出现过一阵恐慌:大家都在说——“OpenAI签了这么多合同,但他们根本没有钱支付。”于是市场开始担心:Oracle的股价会不会暴跌?CoreWeave的股价会不会崩?很多相关公司的股价都出现了波动,信贷市场也变得很紧张,因为大家觉得:“最终买单的客户根本付不起钱。”但后来情况变成了:“等等,他们居然又融资了这么多钱。”于是市场又觉得:“好吧,那他们确实付得起。”
相比之下,Anthropic当时就保守得多。他们的策略是:“我们会签合同,但会保持原则。我们会刻意低估自己未来可能需要的规模,保持保守,因为我们不希望公司有破产风险。”
Dwarkesh Patel:我想搞明白一件事:当你说不得不在紧急情况下获取算力时,这到底意味着什么?是说他们不得不去找那些所谓的“新云”公司吗?还是说这些公司的计算设备更差?“更差”到底是差在哪里?还是说因为是临时买算力,他们必须向云厂商支付更高的利润率,而如果他们提前布局的话本来可以避免这些成本?
另外一个问题是:是谁提前建好了这些“备用算力”,才让Anthropic和OpenAI能在最后时刻买到?
还有,如果到2027年,Anthropic和OpenAI的算力规模最终差不多,那OpenAI的优势到底体现在哪里?是不是只是说:今年年底两家公司拥有的吉瓦数不同?如果是这样的话:今年年底Anthropic和OpenAI各自会有多少吉瓦算力?
Dylan:要获取额外算力,其实确实有几个来源。首先,超大规模云厂商本身也有一些可用容量。而且,并不是所有算力合同都是五年期长期合同。例如在2023、2024年(H100时代)以及2025年,有不少算力合同并不是五年期,而是:一年期、两年期、三年期,甚至六个月,或者按需租用。而当这些合同到期释放时,就会出现一个市场机制:谁最愿意付更高的价格,谁就能拿到算力。在这种情况下,我们已经看到H100的价格明显上涨。很多人现在愿意签更长期、价格更高的合同,价格甚至超过每单位2美元。
我见过一些交易,我这里会稍微模糊一点,因为涉及敏感信息:某些AI实验室签了2–3年期的H100合同,价格高达2.40美元。如果你从利润结构来看就会发现这非常夸张。最初Hopper(H100)刚发布时,五年期建设成本可能只对应1.40美元左右的价格水平。而现在,已经过去两年,却有人签2–3年期合同,价格达到2.40美元。这意味着:云厂商的利润率变得极高。在这种情况下,愿意出更高价的人就会挤出其他客户。这些算力可能原本属于Amazon、CoreWeave、TogetherAI、Nebius或其他云厂商。另外,那些neo-cloud(新型AI云公司)往往持有更多Hopper GPU,因为他们当初下注更激进、合同周期更短(CoreWeave不是这样,但很多其他公司是。)。因此,如果你现在想要Hopper(H100)算力,市场上确实还有一些可用容量。另一方面,对于Blackwell(下一代GPU)来说:在像Oracle或CoreWeave这样的公司那里,绝大部分算力都已经被长期合同锁定。任何本季度上线的新算力,基本上早就卖掉了。而且有些公司甚至还没有完全交付他们承诺出售的算力,因为数据中心建设出现了延迟。这种情况不仅发生在Oracle和CoreWeave,也包括:Nebius、Microsoft、Amazon、Google。不过仍然有一些情况可以获得算力,比如:一些neo-cloud公司还有尚未出售的新建容量、一些hyperscaler原本计划用于内部业务的算力,现在可能转而出售。
还有一种模式是:Anthropic不一定需要直接拥有所有算力。例如:Amazon可以拥有算力,通过Bedrock提供服务、Google可以通过Vertex AI提供服务、Microsoft可以通过Azure AI Foundry。然后这些平台再和Anthropic进行收入分成。反过来也可以这样合作。
Dwarkesh Patel:好的,也就是说:Anthropic现在要么需要支付大约50%的加价(通过收入分成的形式),要么需要在最后时刻购买现货算力,而如果他们当初提前买好算力,本来是不用付这笔溢价的。
Dylan:对,这里面确实存在一种权衡。不过与此同时,也有一个有趣的阶段:大约有整整四个月,市场上的人都在说:“OpenAI?我们不会和你签合同。”听起来很疯狂。理由是:你们根本没有钱。而现在情况完全反过来了。大家都在说:“是的,OpenAI,我们一直都相信你们。我们可以和你们签任何合同,因为你们已经融资这么多钱了。”但从某种意义上说,Anthropic在这方面是受限制的。目前市场上新增的算力买家其实还不多,因为Anthropic最先达到这一阶段的能力水平——他们的收入正在爆炸式增长。
Dwarkesh Patel:这其实挺有意思的。因为否则你会觉得:拥有最好的模型其实是一种快速贬值的资产——三个月之后,你可能就不再拥有最好的模型了。但你现在说的逻辑是:之所以拥有最好的模型很重要,是因为它可以让你提前锁定算力合同。你可以提前签下这些算力协议、提前锁定算力以更好的价格获得资源。顺便说一句,这是不是也意味着一件事——之前很多人一直在讨论一个问题:GPU的折旧周期到底是多少?
一些看空的人,比如Michael Burry之类的人说:大家都在假设GPU的折旧周期是4到5年。但实际上,由于技术进步太快,也许两年折旧才是合理的。如果是两年折旧,那么每年的摊销资本支出就会更高,这样一来,从财务上看,建设这些AI云基础设施的吸引力就会降低。但按照你现在的说法,似乎意味着另一种可能:GPU的折旧周期可能甚至比五年还要长。因为如果我们今天还在使用Hopper(H100),而且如果AI在未来真正爆发——到了2030年,大家可能会说:“该死,我们需要重新启用7纳米工厂,把A100再重新开起来。”如果真是这样,那说明:GPU的实际折旧周期可能非常非常长。这在金融上其实是一个很有意思的含义。
Dylan:这里其实有几个不同的角度可以讨论。首先是:GPU的折旧周期到底是什么样的?顺便我也补充回答一下你之前的问题——也就是Anthropic到今年年底能达到多少算力规模:Anthropic大概可以达到接近5吉瓦,甚至略高一点。这不仅包括他们自己直接拥有的算力,还包括通过平台提供服务的算力,比如:Amazon Bedrock、Google Vertex AI、Microsoft Foundry。通过这些渠道,他们的模型也在被提供服务。所以总体来说,他们可能能达到5到6吉瓦左右,这其实已经远远超过他们最初的计划。而OpenAI的规模也差不多,可能会稍微更高一点——根据我们的数据,确实会高一点。
现在回到GPU的折旧周期。像Michael Burry的观点是:GPU的折旧周期可能是三年甚至更短。但其实可以从几个不同的角度来看这个问题。
第一种视角是机械式的TCO模型(Total Cost of Ownership,总拥有成本)模型。在这种模型里,你会预测GPU的价格,并计算整个集群的成本结构。这些成本包括:数据中心建设成本、网络成本、数据中心运维人员、更换设备的人工成本、备件库存、芯片本身的成本、服务器成本,所有这些成本加在一起,再考虑:折旧周期、融资成本(信用成本)。最终你可以得到一个结果,例如:如果折旧周期是5年,那么一块H100 GPU在大规模部署情况下的成本大约是:每小时1.40美元。如果你以每小时2美元的价格签五年合同,那你的毛利率大约是35%(实际稍微高一点)。如果是1.90美元,毛利率大约也是35%左右。而在这个模型中,你通常假设:到了第五年,这块GPU就像“从公交车上掉下去一样”,直接报废。
第二种视角是技术进步导致价值下降。有些人的逻辑是:如果你没有签长期合同,而NVIDIA每两年就把性能提升3倍或4倍,而价格只增加:2倍或50%,那么旧GPU的市场价值就会下降。举个例子:2024年,H100的市场价值可能是2美元/小时;2026年,当Blackwell大规模量产(每年数百万颗)时,H100的价值可能只剩1美元/小时;2027年,当Rubin架构也大规模部署后,性能再提升3倍,价格只涨50%或2倍。那时Hopper(H100)的价值可能只剩:0.70美元/小时。也就是说,GPU的价格会随着新芯片出现持续下降。
第三种视角是真正决定价格的是“价值”,而不是性能,但现实其实更复杂。因为如果我们可以无限制造最新GPU,那上面的逻辑确实成立。但现实是:我们受到很多限制,比如半导体产能、数据中心建设周期、部署时间。所以最终决定GPU价格的,并不是:“今天市场上有什么更好的替代品?”而是:“这块GPU今天能为我创造多少价值?”举个例子:假设现在有GPT-5.4。这个模型运行成本比GPT-4更低、激活参数更少、模型结构更稀疏(MoE更稀疏)。同时过去几年还有很多技术进步:训练方法、强化学习(RL)、模型架构、数据质量,这些进步让GPT-5.4比GPT-4好得多,同时更便宜。因此:一块H100 GPU现在可以生成更多GPT-5.4的token,而不是像以前那样跑GPT-4。换句话说:它在同样时间里能产出:更多token、更高质量的模型输出。从市场规模(TAM)来看,GPT-4的token市场,也许只有几十亿美元规模,GPT-5.4的潜在市场可能超过1000亿美元。当然,市场采用需要时间,竞争对手也在推出模型,技术还在持续进步。但关键结论是:如果技术进步停在今天,那么H100的价值不再由GPT-4的价值决定,而是由GPT-5.4能从它身上创造的价值决定。因此会出现一个非常反直觉的现象:H100今天的价值,反而比三年前更高。这听起来很疯狂,但现实确实如此。
Dwarkesh Patel:而且从另一个角度看也很有意思。假设我们把这个逻辑继续往前推——如果我们真的开发出了AGI(通用人工智能)模型,如果服务器上真的运行着“人类级智能”——就像一个真正的人类在服务器里工作一样。从FLOPs(浮点运算)的角度来看,关于人脑每秒能做多少FLOPs其实有很多非常粗略的估算。有些人估计,人脑大约相当于10¹⁵FLOPs。而在FLOPs层面,H100的算力其实就在这个量级附近。当然,在内存方面,人脑要大得多。H100只有80GB显存,而人脑可能相当于PB级别的存储。
Dylan:哦,你说有PB级存储?那你给我写出一个PB的0和1的字符串试试,兄弟。
Dwarkesh Patel:那你给我随便写一段字符串出来。
Dylan:其实这正是关键点。或者说实际上——不,我们只是拥有史上最强的稀疏注意力技术而已。
Dwarkesh Patel:确实,从信息压缩的角度来看,人脑可能拥有PB级的信息容量,但真正被激活、使用的部分其实是非常稀疏的。某种意义上就像一种极端稀疏的MoE(专家混合模型)。但不管怎样,想象一下:一个人类知识工作者每年可以创造六位数美元级别的价值。如果一块H100 GPU也能产生接近这样的价值,如果服务器上真的运行着类似人类的智能,那H100的价值可能在几个月内就能回本。
当我采访Dario(Anthropic CEO)的时候,我想表达的重点其实不是:“奇点两年内就会到来,所以Dario必须疯狂购买算力。”当然,从收入角度看,他们确实需要更多算力。但我真正想表达的是:根据Dario自己的说法——他说我们距离“天才级数据中心”只有两年左右,最多也不会超过五年。而一个“天才数据中心”理论上应该能够创造数万亿美元级别的收入。如果是这样的话,那就很难理解:为什么他在公开表态时仍然说要对算力保持更保守的态度,或者像你说的那样,在算力上比OpenAI更不激进。但我当时的这个观点似乎被误解了。很多人后来在网上吐槽我,说:“这个播客主持人居然在劝一家价值数亿美元公司的CEO:兄弟,直接All-in吧。”但我真正想表达的是:他自己的观点在逻辑上其实是有点不一致的。不过现在这样讨论一下,倒是挺好的。
Dylan:是的,可以回到我们之前提到的一个观点:如果模型真的变得越来越强大,那么GPU的价值其实会随着时间上升。目前,大概只有OpenAI和Anthropic持有这种长期视角。但随着时间推移,越来越多公司——甚至包括使用开源模型的公司——也会逐渐意识到:每一块GPU所能创造的价值正在快速上升。如果是这样的话,从理论上说:你现在就应该提前锁定算力。不过有意思的是,Anthropic的公司文化似乎有点不一样。有一个流行的梗是:Anthropic在“承诺”这件事上有点困难,就像是某种“多伴侣关系”一样。当然,这不是说Dario本人,只是一个网络梗。
Dwarkesh Patel:这倒是解释了很多事情。顺便说一个很有意思的经济学效应,叫做“阿尔钦-艾伦效应”。它的意思是:如果你提高两种商品的固定成本——一种是高质量商品,一种是低质量商品。那么在边际上,人们反而更倾向于选择高质量商品。举个简单的例子:假设一个好吃的苹果卖2美元,一个比较差的苹果卖1美元。现在假设政府对它们征收关税。于是价格变成:好苹果3美元,普通苹果2美元。
Dylan:等等,这是因为它们都涨了1美元吗?还是应该按50%的比例上涨?
Dwarkesh Patel:不是。因为两种苹果都涨了1美元。这个效应的关键就在于:如果有一种固定成本同时加在两种商品上,那么它们之间的相对价格比例就会改变。之前的情况是这样:贵的苹果是便宜苹果的2倍价格。现在变成:贵的苹果只比便宜苹果贵1.5倍。所以我在想,如果把这个逻辑应用到算力市场,会不会意味着:如果GPU的价格整体上涨,那么算力成本就会出现一种固定成本上升。结果就是:人们会更愿意为稍微更好的模型支付更高利润率。因为他们的思路会变成:“反正算力已经要花这么多钱了,那我还不如多花一点点钱,用最好的模型,而不是用一个稍微差一点的模型。”
Dylan:对,比如说:如果Hopper GPU的价格从2美元涨到3美元。假设:一块Hopper可以生成100万个Opus token或者200万个Sonnet token。那么由于GPU价格上涨了1美元,Opus和Sonnet之间的价格差距就缩小了。
资本支出供应链的“信仰差”:NVIDIA如何卷走台积电产能?
Dylan:很有意思,这个逻辑其实非常合理。而且现实情况是:今天所有的流量和收入,其实都集中在最好的模型上。在一个算力受限的世界里,会发生几件事情。
第一,提前锁定算力的公司拥有巨大优势。那些提前锁定算力、没有“承诺恐惧症”的公司——比如签了五年算力合同的公司,其实已经锁定了一个巨大的利润优势。因为他们的算力价格,是按照三年前、两年前甚至五年前的市场价格签下来的。而如果你现在:已经进入合同第三年,其他人的两年或三年合同刚好到期,他们现在需要按照当前市场价格重新购买算力,而当前价格已经是根据模型价值定价的。因此价格会高得多。所以总体来说:提前承诺、提前签合同的人,利润率通常更高。而且现在市场上,长期合同占比远高于短期合同。短期合同那部分算力,只占市场很小一部分,通常被当作最后时刻增加容量的弹性资源。
第二,新增算力决定了真正的成本结构另一个问题是:利润到底流向哪里?因为模型变得越来越有价值。那云厂商能不能提高价格?其实情况比较复杂。例如看CoreWeave:他们现在大约98%以上的算力合同期限都超过三年。这就导致一个矛盾:他们其实很难随意提高价格。但与此同时,每一年他们都在新增远远超过过去规模的算力。举个例子:今年Meta新增的算力规模,已经相当于它在2022年时所有数据中心算力的总和。而且那还是用来运行:WhatsApp、Instagram、Facebook以及AI的全部算力。而现在,今年一年新增的算力就达到这个规模。同样的情况也发生在CoreWeave、Google、Amazon这些公司每年都在疯狂增加算力规模。而新增加的算力,才是按照新的市场价格成交的。因此,在AI快速扩张阶段:OpenAI从600MW→2吉瓦(去年),2吉瓦→6+吉瓦(今年),未来可能6吉瓦→12吉瓦(明年)真正决定成本结构的,是新增算力,而不是以前的长期合同。
第三,谁真正拿走利润?那么问题来了:谁最终拿走这些利润?理论上应该是:云服务商,因为他们提供算力。但实际上事情更复杂。如果往供应链上游看:真正掌握资源的人是NVIDIA(GPU)、内存厂商。NVIDIA已经签下了大量长期供应合同,现在他们大约有900亿美元的长期订单,而且他们正在和内存厂商签三年期合同。另外:Amazon和Google(通过Broadcom)、台积电、内存厂商,这些公司其实都掌握着关键资源。目前情况是台积电并没有大幅涨价,但内存厂商正在明显涨价。甚至可能价格再次翻倍或三倍。同时他们也在签长期合同。所以最后的利润可能流向云厂商、芯片厂商、内存厂商。除非未来台积电或ASML突然决定说:“好吧,现在我们也要大幅提高价格。”
模型公司能赚多少利润?那模型公司(OpenAI、Anthropic等)能赚很多钱吗?:至少在今年,它们的利润率会明显上升。原因很简单:算力严重不足。因此它们必须采取一种策略:“通过价格来压制需求”。因为如果不这样做,Anthropic根本无法在当前增长速度下继续运营,算力根本不够用。
Dwarkesh Patel:我们来聊一下逻辑芯片和内存。特别是:NVIDIA是如何锁定如此多产能的。按照你们的估算,到2027年,NVIDIA可能会占据70%以上的台积电N3(3nm)晶圆产能,大概是这个量级。另外我记得你也提到过一些数字,比如在SK hynix、三星等公司的HBM内存产能分配。如果我们看看整个生态:比如新型AI云公司是怎么运作的,以及NVIDIA如何与它们合作;或者RL环境行业是怎么发展的,以及Anthropic如何与这些数据提供商合作。在这两种情况下,其实有一个类似的策略:NVIDIA会刻意把相关行业“碎片化”,确保自己拥有最大的议价能力。比如:NVIDIA会把GPU分配给很多不同的neo-cloud公司,这样就不会出现某一家云公司掌握全部算力。同样地,当Anthropic或OpenAI和数据提供商合作时,他们也会说:“我们不会只依赖一家供应商,而是要培育一个很大的供应商生态。”这样他们就不会被某一家数据环境供应商锁死。所以我很好奇:在3nm工艺上——未来会用于Tranium 3、TPU v7、以及其他AI加速器。为什么台积电(台积电)没有像NVIDIA那样分散市场?为什么反而是让NVIDIA拿走了这么多产能?
Dylan:这里其实有几个关键因素。首先,如果我们回到去年来看,3nm产能的大部分其实是给了Apple。但现在情况正在变化,Apple正在向2nm工艺迁移,内存价格正在上涨。因此Apple的出货量未来可能会下降,因为当内存价格上涨时,公司只有两种选择:1.压缩利润率2.减少出货量。当然,这里面会有一些时间滞后,因为Apple有长期合同。但总体来说,Apple可能会减少3nm需求或者更快转向2nm,而目前2nm主要只能用于移动芯片。未来AI芯片也会迁移到2nm,但现在还没完全开始。同时Apple也在和第三方代工厂接触,因为:他们在台积电的产能中正逐渐被挤压。原因是:台积电在高性能计算(HPC)和AI芯片上的利润率更高。相比之下:台积电在HPC领域优势更大,在手机芯片领域优势相对没那么大。
接下来看看台积电的分配逻辑。其实他们非常愿意给CPU公司分配产能,例如:Amazon的Graviton(CPU)、Amazon的Trainium(AI芯片)。这两个芯片都在3nm工艺上。但台积电更愿意给Graviton分配产能,而不是Trainium。原因是CPU市场更稳定、增长更可预测。而作为一家比较保守、不喜欢剧烈周期波动的公司,台积电的策略通常是:优先给增长稳定、波动小的市场分配产能。然后才把剩余产能给增长更快但更波动的市场。这个逻辑同样适用于AMD的CPU、台积电对CPU的兴趣通常高于GPU。Amazon的情况也类似。但NVIDIA是一个非常特殊的例子。因为NVIDIA不只是做GPU。他们还有CPU、交换芯片、网络设备、NVLink、InfiniBand、Ethernet、NIC网卡。到今年年底,随着Rubin架构发布,这些产品大部分都会迁移到3nm工艺。当然,其中最重要的还是GPU。
尽管如此,NVIDIA仍然拿到了绝大部分产能。为什么?一个很重要的原因是市场信号。台积电在做产能规划时,会看市场需求预测、客户下单情况。例如客户会说:“明年我们需要这么多产能。”“后年需要这么多。”有些订单甚至是:不可取消、不可退货,甚至还要提前付定金。而NVIDIA做这些事情比Google和Amazon更早。同时Google和Amazon在自己的芯片项目上也遇到了一些问题。比如有些芯片延迟了几个季度、Trainium项目也有一些时间上的波动。于是就出现一种情况:其他公司在推迟需求,而NVIDIA一直在说:更多、更多、更多产能。台积电当然也会检查整个供应链是否跟得上。例如他们会问:PCB供应商有没有足够产能?比如Victory Giant——这是NVIDIA最大的PCB供应商之一,是一家中国公司。事实上,很多PCB都来自中国。台积电会确认:PCB产能是否足够、内存供应是否足够。而当他们去问内存厂商时,得到的答案是:大部分HBM内存已经被NVIDIA锁定了。于是结果就变成:“好吧,那NVIDIA就拿走这些产能。”
这其实和AI算力市场的逻辑很像。谁会愿意在看起来很疯狂的长期时间尺度上提前购买大量算力?只有那些真正相信AGI会到来的人。即使在别人看来这些需求规模非常夸张,他们仍然愿意:现在就签合同、现在就支付溢价。因为他们认为未来算力价格和价值之间的比例会完全失衡。在半导体供应链中,其实发生了同样的事情。NVIDIA比其他公司更早做出了这种下注。当然,我也不觉得NVIDIA真的是那种完全“AGI信徒”。毕竟Jensen Huang(NVIDIA CEO)甚至说过:他并不认为软件工程会被完全自动化。但至少在供应链层面,NVIDIA的行为看起来像是押注AI爆发的公司。
Dwarkesh Patel:他说的是“加速计算”,而不是AI芯片。
Dylan:其实就是AI芯片。
Dwarkesh Patel:但这是他使用的说法。
Dylan:对,因为这个词其实更广泛一点。AI只是其中一部分,比如物理建模、各种模拟计算之类的。
Dwarkesh Patel:或者也可能是他没有完全拥抱当前最主要的应用场景。
Dylan:他是接受这个趋势的,只是他不像Dario那样是那种彻底的AGI信徒。
Dwarkesh Patel:或者像Sam(Altman)。
Dylan:但即便如此,他仍然比Google或Amazon在去年第三季度时更相信AGI的到来,而且他看到了更多真实需求。原因其实很简单:你可以看到所有数据中心的建设情况。他基本是在想:“我要拿下这个市场份额。”我们其实追踪了全球很多数据中心项目。有一些数据中心你很难判断到底是谁在用——可能是这个公司,也可能是那个公司。但无论如何:Google和Amazon最终都不得不部署大量GPU。特别是Google。即使他们自己的TPU对他们来说其实更适合部署,他们还是必须部署大量GPU。因为他们没有足够的TPU去填满自己的数据中心。他们根本造不出来那么多TPU。
内部冲突与错位:Google为何将TPUs卖给对手?
Dwarkesh Patel:等一下,我有个问题。Google不是卖给Anthropic大概100万颗TPU吗?我记得是V7。而你刚才说,现在最大的瓶颈,无论是今年、明年,甚至以后都是:逻辑芯片产能、内存,也就是制造这些芯片所需要的东西。而Google有DeepMind,这是另一个顶级AI实验室。如果算力是最大的瓶颈,为什么Google不把这些TPU给DeepMind,而是卖给Anthropic?
Dylan:是的,这其实就是一个典型的内部冲突问题。DeepMind的很多人其实会觉得:“这太疯狂了,我们为什么要这么做?”但Google Cloud团队和公司高层的思路不一样。事情大概是这样:你我都认识Anthropic算力团队的人。他们当中有几个人其实都是从Google出来的。这些人看到了一个市场错位机会。于是他们去谈判,并且在Google自己意识到之前就拿到了这些算力资源。按照我们在供应链数据里看到的情况,事情大概是这样发生的:在第三季度初,大约6周时间里,我们观察到TPU产能在Anthropic那边快速增加。而且这不是一次增加,而是多次增加。Google甚至不得不去向台积电解释:为什么他们突然需要这么多额外产能。因为这个需求增长实在太突然了。而其中很大一部分新增产能其实是为了卖给Anthropic。
Dwarkesh Patel:嗯。
Dylan:因为Anthropic比Google更早看到这个机会.后来事情发生了变化,Google推出了NanoBanano、Gemini3,这些产品让他们的用户指标突然飙升。这时Google的管理层才意识到:“等等,我们需要更多算力。”于是他们开始公开说:算力必须每X个月翻一倍(具体是6个月还是别的周期我记不太清了)。总之他们开始非常认真地对待这个问题。然后他们就去找台积电说:“我们要更多产能,我们要更多。”但台积电的回答是:“抱歉,你们要的产能已经被订完了。”最多只能:给2026年增加5%–10%的产能。真正能调整的大规模产能要等到2027年。
从我的角度来看,这其实是一种AI实验室之间的信息不对称。当然,这只是我根据供应链数据形成的一个判断。因为我们能看到晶圆订单、数据中心建设以及像Anthropic、Fluidstack这样的公司签的合同。综合这些信息之后,其实很明显:Google在早期判断上是犯了错误的。你也可以从Gemini的收入增长看出来。在Q1到Q3,他们几乎没有什么收入。到Q3才开始有一点增长。但到了Q4,他们的年化经常性收入突然达到约50亿美元。也就是说,Google之前并没有看到收入会突然爆发。而在某种程度上,即使Anthropic拥有更多前瞻信息,在ARR爆发之前,他们其实也有点犹豫不决。而Google本身更保守、ARR又更低,所以他们更不愿意提前疯狂扩张。直到后来他们才意识到:“我们应该这么做。”从那之后,Google的态度已经完全改变。他们现在变得极度“AGI信徒化”。例如:收购能源公司为燃气轮机支付定金、大量购买有电力接入的土地、和电力公司签长期供电协议在数据中心建设、电力供应这些方面,他们现在都在极其激进地扩张。所以总结来说,Google是在去年年底才真正醒过来的。只是他们花了一些时间才意识到这一点。
终极瓶颈ASML:决定AI奇点的不是电力,而是光刻机
Dwarkesh Patel:你觉得到了明年年底,Google会有多少吉瓦算力?当然,这种数据你一般是收费的。我感觉每一年,限制我们扩展AI算力的瓶颈都在变化。几年前是CoWoS(先进封装),去年是电力,今年你可以告诉我今年的瓶颈是什么。但我更想知道的是:如果看未来五年,到底什么才会成为阻止我们实现“奇点级扩张”的核心限制因素?
Dylan:是的,最大的瓶颈是算力本身。而在算力这个问题上,最长周期的供应链,并不是电力或数据中心,而是半导体供应链本身。也就是说,瓶颈会从之前的电力数据中心重新转回到芯片本身。在芯片供应链内部,又有多个瓶颈:内存、来自台积电的逻辑晶圆,晶圆厂(FAB)本身,而建造一个晶圆厂通常需要2到3年时间。相比之下,数据中心的建设周期不到一年。我们甚至见过Amazon在8个月内建成数据中心。所以这里存在一个巨大的时间差异,因为芯片制造工厂的复杂度远高于数据中心。
另外还有一个关键因素是,制造设备本身也有非常长的交付周期。所以,随着我们扩展AI,瓶颈在不断变化。之前的瓶颈是CoWoS、电力、数据中心,但这些其实都是短周期瓶颈。例如CoWoS本质上只是把芯片封装在一起的工艺,电力和数据中心的复杂度最终还是远低于芯片制造本身。因此,之前还能通过一些方式来缓解:比如把原本用于手机或PC的产能转移到数据中心芯片,这些资源在一定程度上是可以互相替代的。但CoWoS、电力、数据中心这些东西,则必须重新建设供应链。而现在情况变了,已经没有更多来自手机或PC行业的产能可以转移到AI了。因为NVIDIA已经成为台积电最大客户同时也是SK Hynix(最大内存厂商)的最大客户。这意味着:资源已经基本全部向AI倾斜完成了。因此问题变成:我们要如何进一步扩大AI芯片产量?这将是一直到2030年最大的瓶颈。
Dwarkesh Patel:如果能基于一个绝对上限来推算,比如到2030年,我们最多只能生产这么多EUV光刻机,从而推算出一个算力的上限(吉瓦上限),那会非常有意思。
Dylan:对,如果我们继续扩展算力,短期(今年、明年)会有不同的瓶颈。但到了2028、2029年,瓶颈会进一步下沉到供应链最底层,也就是ASML。ASML生产的是世界上最复杂的机器:EUV光刻机。每一台的售价大约是3亿到4亿美元。目前他们每年大约能生产70台(现在),80台(明年)。即使在非常激进的扩产情况下,到本世纪末,他们也只能达到每年略超过100台。这意味着什么?假设到时候每年能生产100台EUV设备。那么这如何转化为AI算力?我们经常听到Sam Altman以及行业中很多人都在谈“吉瓦、吉瓦、吉瓦”,比如每年新增多少吉瓦,甚至像Elon Musk说的:“每年在太空部署100吉瓦算力”。
但这些数字的问题在于:真正的限制不在于电力数据中心,而在于芯片制造能力。举个例子:如果你要建设1吉瓦算力的数据中心,使用的是NVIDIA最新的Rubin芯片(将在今年晚些时候推出)。那么你需要大约5.5万片3nm晶圆、6000片5nm晶圆、17万片DRAM晶圆(内存)。而这些不同类型的晶圆,都需要使用EUV光刻工艺。在芯片制造过程中,一片晶圆要经历成千上万道工序:材料沉积、材料去除,但最关键的一步是光刻,这一步本身甚至不会直接在晶圆上添加材料。它的过程是:1.在晶圆上涂一层光刻胶,2.将晶圆放入EUV光刻机,3.用光照射,通过掩膜进行图案刻画。掩膜就像一个模板,用来定义电路结构。对于一片3nm先进晶圆来说,大约需要70层光刻,其中约20层是最先进的EUV光刻。
现在我们来算一下:如果1吉瓦算力需要5.5万片晶圆,每片晶圆需要20次EUV光刻,那么总共需要约110万次EUV光刻,再加上5nm内存晶圆,总计大约是200万次EUV光刻操作。再看设备能力:一台EUV光刻机每小时可以处理约75片晶圆、设备可用率约90%。最终算下来要支撑1吉瓦算力生产,大约需要3.5台EUV光刻机。换句话说3.5台EUV=1吉瓦算力,这其实是一个很有意思的对比:建设1吉瓦数据中心大约需要500亿美元、而支撑它的EUV设备成本只有大约12亿美元(3.5台)。也就是说一个价值500亿美元数据中心投资,甚至可能创造1000亿美元AI价值的体系,其实被卡在约12亿美元的关键设备产能上。而这个设备的供应链短期内根本无法快速扩张。
Dwarkesh Patel:而且我在想,你最近也看过相关文章:过去三年里,台积电的资本支出达到了一千亿美元,大致分别是三百亿、三百亿、四百亿。而这里面只有很小一部分,是供给英伟达用来生产其3纳米制程芯片,或者说,此前英伟达芯片所采用的4纳米制程。但英伟达却凭此实现了极高的收益。你看,它上个季度的营收约有四百亿美元,如果按四个季度折算,全年就达到一千六百亿美元。
所以NVIDIA单独就把这1000亿美元资本开支中的一小部分——而且这些开支是要在很多年里折旧的,不只是这一年——转化成了一年之内的1600亿美元。然后当你再往供应链往下看,到ASML的时候,这种情况就变得更加极端了,它用价值10亿美元的机器来生产1吉瓦。然后当然,这些机器会使用超过一年。所以它做的不止这些。好,那么现在我想理解的是,好吧,那么到2030年,如果你不仅把当年卖出的机器算进去,还把之前几年累积起来的机器都算进去的话,会有多少这样的机器?而这意味着什么?Sam Altman说他想在2030年做到每周1吉瓦。或者说,当你把这些数字加在一起的时候,这和那个目标是兼容的吗?
Dylan:这是完全兼容的。因为如果你去想台积电和整个生态系统,现在已经有大概250到300台EUV光刻机了。然后再叠加今年的70台、明年的80台,到2030年增长到100台。到这个十年末,你会有大概700台EUV光刻机。按每3.5台对应1吉瓦来算。假设这些全部都分配给AI,虽然实际上并不是这样,但每3.5台对应1吉瓦,就能得到大约200吉瓦的AI芯片,用于数据中心部署。所以200吉瓦,Sam想要每年50吉瓦或者52吉瓦。那他只占了25%的份额。显然,其中也有一部分会分配给手机和PC。假设我们出于某种原因甚至还能拥有消费电子产品,我们没有被价格挤出这个市场。但是,大致来说,他说的25%的总芯片市场份额,这其实是非常合理的,考虑到,比如说,仅仅今年,他就会获得已部署的Blackwell GPU中的25%的份额。所以这并没有那么疯狂。
Dwarkesh Patel:让我感到惊讶的是,第一批ASML是什么时候开始出货EUV光刻机的?是在7纳米开始的时候吗?所以我不太确定具体时间。但你的意思是,在2030年,他们会使用那些最初是在2020年出货的机器。也就是说,在这个世界上最先进的产业中,你会用同样最重要的机器用10年。这很令人惊讶。
Dylan:所以ASML出货EUV光刻机现在已经大约有十年了,但它真正进入大规模量产是在2020年左右。这个设备并不是一样的。在那时候,这些设备的吞吐量甚至更低。围绕它们有各种规格参数,叫做overlay。我之前提到过,你是在一层一层地往上叠。你会做一些EUV。然后你会做一大堆不同的工艺步骤,沉积材料、蚀刻材料、清洗晶圆,在你进行下一层EUV之前要做几十道这样的步骤。有一个规格叫overlay。也就是说,好,你做了所有这些工作。你在晶圆上画了这些线。现在我想画这些点。就假设我想画这些点来连接这些……这些金属线……然后是孔。
然后再往上一层是另一组线,是垂直方向的。所以现在你是在连接彼此垂直的导线。你必须能够把它们落在彼此的上面。所以这就叫overlay。而overlay这个规格被ASML非常快速地提升了。晶圆吞吐量也被ASML非常快速地提升了。而且设备的价格也上升了,但没有它能力提升得那么多。最初这些EUV设备大概是1.5亿美元。随着时间推移,现在大概是4亿美元,当我看向2028年的时候。但设备的能力也已经提升了超过一倍。特别是在吞吐量和overlay精度方面,也就是能够把后续的加工步骤准确地对齐叠加在之前的步骤之上的能力。即使中间有大量的工艺步骤。所以这是……ASML的进步是非常快的。
还有一点值得注意的是,ASML可能是世界上最慷慨的公司之一。他们掌握着这个关键环节。没有人有任何有竞争力的东西。也许中国到这个十年末会有一些EUV。但没有其他人有任何接近EUV的东西。然而他们并没有把价格和利润率大幅提高。你去问一些我们一直在交流的人,比如说Leopold,他们会说,好吧,让价格上涨吧。因为他们可以这么做。利润空间在那里,你可以拿走这些利润,就像NVIDIA在拿利润,内存厂商也在拿利润。但是ASML从来没有把价格上涨幅度提高到超过它能力提升的幅度。所以从某种意义上说,他们始终在为客户提供净收益。并不是说这个设备是停滞的。只是说,这些设备是旧的。是的,你可以对它们做一些升级,而且新的设备也在推出。而为了简单起见,我们在这个播客中基本忽略了这些进步,也就是overlay或者每台设备吞吐量方面的提升。
Dwarkesh Patel:所以你说我们今年会生产60台这种机器,然后接下来几年是70、80。如果ASML просто决定把它的资本开支翻倍或者翻三倍,会发生什么?是什么阻止他们在2030年生产超过100台?为什么你如此有信心,即使是往后五年,你也能相对确定他们的产量会是多少?
Dylan:所以这里有几个因素。ASML并没有决定直接YOLO一把,说我们要尽可能快地扩张产能。总体来说,整个半导体供应链也没有这样做。它经历过繁荣和衰退周期。我们可以稍后再详细讲。但基本上,没有人……最近确实有一些参与者刚刚“醒过来”。但总体来说,没有人真的认为每年会有200吉瓦的AI芯片需求,或者说半导体供应链每年会有数万亿美元的支出。他们就是……他们不是那种“AI信徒”。他们不是“AGI信徒”。
Dwarkesh Patel:我们今年就会达到一万亿美元。
Dylan:是的,我懂你的意思。但我想说的是,在供应链中没有人真正理解这一点。我们一直被告知,我们的数字太高了。然后当这些数字被证明是对的时候,他们又会说,哦对,但是你明年的数字还是太高了。但不管怎么说,ASML的设备大致有四个主要组成部分。它有光源,这个是由CYMER在圣地亚哥制造的;它有光罩台,这个是在康涅狄格州威尔明顿制造的;它还有晶圆台以及光学系统。也就是镜头之类的东西。而后面这两部分是在欧洲制造的。所以当你看这四个部分时,它们各自都是极其复杂的供应链。
第一,它们并没有被大规模地尝试扩张。第二,即使他们想扩张,时间滞后也是相当长的。再说一次,这是人类制造的最复杂的机器,没有之一。至少是在有一定产量的情况下。但我们可以具体谈谈光源。光源是做什么的?它会释放这些锡液滴。然后用激光连续三次精确地击中它。第一次击中这个锡液滴,让它扩展开来。第二次再击中它,让它扩展成一个完美的形状。然后第三次以非常高的能量轰击它。这些锡液滴被激发到足够的程度,从而释放出13.5纳米的紫外光。然后这些光会被一个装置收集起来,这个装置基本上是把所有光收集并导向透镜系统。然后你有透镜系统,这部分是由Carl Zeiss(蔡司)来做的。就像你刚才提到的,还有其他一些厂商,但蔡司是其中最关键的。他们同样也没有尝试去扩张产能,因为他们并没有看到……他们的想法是,哦,是的,因为AI,我们确实在增长。我们从60增长到100。我们可能需要增长到几百,但没关系,随便吧。每一台这样的设备,大概有18个这样的透镜,本质上是镜子,是多层镜面。它们是由钼和钌(如果我没记错的话)构成的完美层,一层一层叠加起来,有很多层。然后光会在上面完美反射。但这不仅仅像我们通常理解的那种透镜,是一个形状,然后聚焦光线。这是一个“同时也是透镜的镜子”。所以它非常复杂。在这些极薄沉积层中,任何一个缺陷都会毁掉它。任何曲率问题都会带来问题。
在扩大生产规模方面存在很多挑战。在某种意义上,这是非常“手工艺”的。因为你不是每年生产成千上万台。你是生产几百台,或者上千台。比如说,每年60台设备,每台设备有18个这样的部件,你最终也不过是几百到一千左右的数量级。这些透镜和投影光学系统就是这个数量级。然后你再看光罩台,这个东西也非常疯狂。它的移动加速度大约是9G,就是说,它会达到9倍重力加速度。因为当你在晶圆上逐步扫描时,这个设备会这样移动,而晶圆台是与之配合的。你把这两者对齐,所有通过透镜聚焦的光在这里,这是光罩,这是晶圆。当它扫描一个26×33毫米的区域时,光罩朝一个方向移动,晶圆朝相反方向移动。然后它停下来,移动到晶圆的另一个区域,再做一次。整个过程在几秒内完成。而且这两个部件都在以9G的加速度朝相反方向运动。所以这些每一个组件,都是化学、制造工艺、机械工程、光学工程的奇迹。因为你必须把所有这些东西对齐,并确保它们是完美的。所有这些系统都需要大量的测量。因为你必须完美地测试每一个部分。因为如果有任何地方出错,良率就会变成0。因为这是一个极其精密的系统。
而且顺便说一下,这个设备非常巨大。你是在荷兰埃因霍温的工厂把它制造出来的,然后再把它拆解,通过多架飞机运送到客户现场。然后在客户现场重新组装,并再次测试。这个过程需要很多很多个月。所以,供应链中有如此多的步骤。无论是蔡司制造透镜和投影光学系统,还是CYMER(ASML旗下公司)制造EUV光源。每一个环节都有自己复杂的供应链。ASML自己也说过,他们的供应链中有超过一万家供应商。是的,这些可能不是直接供应商,可能是通过蔡司或其他公司间接连接的。但你如果去想,你有两个物理移动的物体,大概是晶圆的尺寸。而它的精度必须达到单个纳米级别,甚至更小。因为整个系统,比如overlay(层间对准误差),必须控制在大约3纳米。如果overlay是3纳米,那意味着每一个单独组件的运动精度必须更小。在大多数情况下要小于1纳米。因为这些误差是会叠加的。所以你不可能“打个响指”就把产量提高。就像电力这种简单的事情。美国从0%的电力增长提高到2%,即使中国已经是30%,这对美国来说都非常困难。而电力供应链其实是一个相对简单的供应链,参与者也很少。虽然他们做的事情也很难。美国可能有大约十万名电工或从事电力供应链的人。而当你看ASML,它的员工数量其实很少。蔡司可能从事这项工作的人员不到一千人。而且这些人都是高度专业化的。所以你不可能在一瞬间训练出这些人。你也不可能在一瞬间让整个供应链动员起来。
NVIDIA已经做了很多努力,才让整个供应链能够提供他们今年要生产的产能。即使如此,当你去问Anthropic,他们会说我们缺TPU,我们缺Tranium,我们缺GPU。当你去问OpenAI,他们也会说我们缺这些东西。所以OpenAI和Anthropic知道他们需要X。NVIDIA还没有完全“AGI信徒化”,所以他们在生产X−1。再往下游走,供应链中的每一个人都在做“减一”。在某些情况下,甚至是“除以二”。因为他们并不相信AGI。所以你最终会得到一个非常长的反应滞后。这种“AI信念”和“扩产意愿”在供应链中的传导是非常慢的。而当他们终于意识到,我们需要快速扩产的时候——他们认为自己已经理解了。他们会说,好,AI意味着我们要从60增长到100。再加上设备本身在变得更好更快,比如光源功率从500瓦提高到1000瓦,以及供应链中其他方面的技术进步,再加上产量增加。他们觉得自己已经在大幅扩产了。但如果你去看这些需求数字:比如Elon Musk想要在2028或2029年实现每年100吉瓦(甚至在太空)。而Sam Altman想要在本十年末实现每年50或52吉瓦。而你再看,Anthropic可能也需要类似的规模。然后Google也需要。你把整个供应链加起来看,会发现:不,这个供应链根本不可能生产出足够的产能,让每一个人都得到他们想要的算力。
算力提升的真实来源:不仅是制程,而是系统级能力
Dwarkesh Patel :我感觉在过去几年里,在数据中心供应链这个问题上人们一直在提出一种类似的论点指明某个具体环节是瓶颈,因此AI 算力的规模最多只能扩展到某个上限。但正如你写过的那样,如果电网成了瓶颈,那我们就可以在数据中心现场做behind-the-meter的方案,比如直接部署gas turbine,如果这个也不行,人们其实还有很多其他的替代方案可以使用。所以我想问你一个问题:在半导体供应链中,我们是否也可以想象类似的事情发生?
比如说,如果EUV成为了瓶颈,那会怎样?我们是否可以回退到7nm工艺,就像中国现在正在做的那样,用DUV机器通过multi-patterning来生产7nm芯片。而且一个7nm的芯片,比如A100,从A100到B100或B200之间确实有很大的进步,但其中有多少进步其实只是numerics的变化?B100大概是略高于1petaflop,而A100大概是300teraflops,在保持数值计算格式不变的情况下,从A100到B100大约实现了3倍的性能提升。而这些提升中,一部分来自制造工艺的改进,另一部分来自加速器设计的优化,并且这些设计上的改进在未来是可以被再次实现和复用的。因此,从7nm发展到4nm这一过程来看,制造工艺本身带来的影响其实是相对有限的。
所以我也不确定,我手头没有具体数字,但假设现在3nm的产能大概是每月150Kwafers。未来2nm可能也会有类似规模。但与此同时,7nm也有差不多规模的产能。如果你把这些旧工艺的wafers都用起来,假设由于工艺限制,每片晶圆单位面积上的bits数量减少了,比如减少了50%,其实看起来也没那么糟糕——直接增加7nm wafers的产量,然后就能多出50吉瓦或100吉瓦的算力。所以你来告诉我,为什么这种想法是天真的。
Dylan Patel :是的,确实存在一种可能性:如果我们对算力的需求疯狂到一定程度,这种事情也许真的会发生。因为我们只需要incremental compute,而且即使这些芯片成本更高、功耗更大,算力依然是值得的。但从某种程度上说,这种情况其实也不太可能发生,很大一部分原因在于,这些比较方式本身就不太公平。
举个例子,A100大约是312teraflops,而Blackwell大概是1000左右的FP16,或者可能是2000,而Rubin则大概是5000左右的FP16。但这种比较其实不公平,因为这些芯片的设计目标完全不同。对于A100,Nvidia当时优化的重点是FP16/BF16numerics,而当你看Hopper时,他们并没有那么在意这个,他们更关注FP8,再看Rubin,他们其实也不太在意FP16和BF16,而是更关注FP4和FP6。
换句话说,每一代芯片都会围绕不同的numerics设计。所以如果你说:“那我们重新设计一个7nm的新芯片。”当然,这是可以做到的,而且我们可以把它优化为适配现代模型所使用的numerics。但即便如此,它的性能差距依然会远远大于你刚才提到的flops差距。
很多时候,人们喜欢把问题简化为flops per watt或flops per dollar。但这种比较其实并不公平。在这里可以举Kimi2.5或DeepSeek的例子。这些模型在Hopper和Blackwell上运行,并且使用高度优化的软件时,你会得到完全不同的性能结果。而这种差异大部分并不是来自flops或numerics。因为这些模型实际上是8-bit。所以Blackwell和Hopper在这个场景下其实都在做8-bit推理,Blackwell并没有真正利用到它的4-bit优势。但即便如此,性能差距仍然非常大。
换句话说,问题并不只是工艺技术 shrink,让晶体管更小,让每个芯片拥有更多flops。真正的大限制在于这些模型并不是在单个芯片上运行的,它们是同时在数百个芯片上运行。比如DeepSeek的生产部署(已经一年多了),他们是用160个GPU来运行的,他们的生产流量就是跑在160GPU集群上。所以模型会被切分到160个GPU上运行。每当你跨越一个芯片到另一个芯片时,就会产生效率损失,因为数据必须通过高速电连接传输。这会带来延迟成本与功耗成本的增加,以及各种系统层面的损耗。
你在单个芯片里增加了compute的数量。现在在chip内部的数据移动(in-chip data movement)可以达到每秒几十TB,甚至上百TB的量级。而在chip与chip之间,宽带大概只有每秒TB级别。因此,即使是那些在物理上非常接近的芯片之间进行数据传输,速度也会明显下降。而且从物理空间上来说,你能把彼此非常接近放置的芯片数量是有限的,所以最终你必须把一部分芯片放到不同的rack里,而rack与rack之间的数据带宽大概只有每秒几百gigabits的量级,比如400Gbps或800Gbps,换算一下,大概就是100GB/s左右,所以整个系统会形成一种非常明显的带宽阶梯(band width ladder):on-chip(数据通信速度极高)—chip-to-chip(速度下降一个量级)—rack-to-rack(速度再下降一个量级)
在同一个rack内可以以非常高的速度进行通信。当通信跨出rack时,通信速度就会下降一个数量级,如果再继续往更远的范围通信,速度还会再下降一个数量级。当你不断跨越芯片之间的边界时,系统最终就会呈现出这样的性能特征。
总之,我之所以解释这些,是因为当我去看Hopper和Blackwell的时候——即使它们都使用了整整一个rack规模的芯片——Hopper仍然会显著更慢。原因在于,在执行具体任务时,你能够利用到的性能取决于不同通信层级中的能力。比如说:在晶体管之间,或者这些processing elements之间,通信带宽可以达到每秒几十TB。而在这些processing elements 之间,通信带宽也可以达到每秒TB级别,而Blackwell在这些方面提供的能力要高得多,因此整体性能也会高得多。所以当你看inference的情况,比如DeepSeek和Kimi2.5在100tokens/s推理速度这个场景下,对比Hopper和Blackwell,性能差距大概可以达到20倍。这其实很有意思,因为它并不是2倍或3倍,不像flops性能差距所暗示的那样。即使这些芯片使用的是同一个工艺节点,性能差距依然这么大。原因就在于,它们在networking technologies以及相关系统设计上存在差异,也就是各自重点投入研发的方向不同,因此其中一些优势确实可以被部分迁移或复现,但是当你看像Rbin这种在3nm上做的设计时,其中有些东西是根本无法在A100那一代架构上实现的,即使你重新设计一颗新的芯片,也做不到。
Dwarkesh Patel :即使是在7nm上重新设计一个芯片?
Dylan Patel :对,有些架构改进是可以实现的,所以最终的性能差距不仅仅是flops的差距。而是多种因素叠加的结果,比如每个芯片的flops数量、芯片之间的互联速度、单芯片的内存带宽、整个系统的内存带宽。
AI基础设施的核心瓶颈:带宽、内存与物理限制
Dwarkesh Patel :今年或者去年,B200已经在一个芯片上放了两个die。这样就能在单芯片内部获得高带宽,而不用经过NVLink或InfiniBand。明年Rubin Ultra会在一个芯片上放4个die。那是什么限制我们继续这样做?一个芯片上最多可以放多少die能继续保持几十TB/s的带宽?
Dylan Patel :即使在Blackwell里,当你比较同一die内通信与不同die之间通信,性能也是不同的。虽然这种差距远小于跨芯片通信,但依然存在,所以当你增加die数量时,性能也会有损失,不是完美线性扩展,但它确实比跨package好得多。
至于advanced packaging能扩展到多大规模——Nvidia使用的是CoWoS。Google、Broadcom、MediaTek、Amazon Trainium等芯片采用的是类似的chiplet/co-packaging技术。但你其实可以看看Tesla Dojo,Dojo曾经做过一个整片wafer大小的芯片,上面有25个芯片,当然有一些缺陷,比如它没法使用HBM。但优点是:它在一个package里集成了25个芯片。因此到目前为止,它可能仍然是运行CNN(convolutional neural networks)最好的芯片之一。只是它不太适合transformers,因为它的memory、arithmetics、芯片结构等参数并不是为transformers设计的,而是为CNN优化的。
Dojo是围绕这个目标优化的,他们做了更大的package。但随着package越来越大,新的限制就会出现,比如networking speed、memory bandwidth和cooling capability,所以事情并没有那么简单。不过你确实会看到一个趋势:一个package上的芯片数量会越来越多,而且这件事也完全可以在7nm上实现。事实上Huawei在Ascend910C/910D上就是这么做的,他们最初是单die,后来变成双die,他们在努力扩展packaging scale,因为这是他们比工艺技术更容易推进的方向。但问题在于任何你在7nm packaging上能做的事情,在3nm上同样也可以做。
全球竞争与长期变量:产能、供应链与时间尺度
Dwarkesh Patel :假设到2030年出现这样一个世界:西方国家拥有最先进的工艺技术,但并没有把产能规模提升得特别大。而中国可能还没有EUV或2nm,但它拥有巨大的半导体产能规模。我很好奇:有没有一个时间点会出现交叉——我们的工艺技术优势逐渐减弱,而他们的scale优势越来越大,再加上中国拥有一个国家内部完整供应链,西方供应链则分散在德国、荷兰等不同国家,最终中国会不会在总flops生产能力上反而领先?
Dylan Patel :到目前为止,中国仍然没有完全本土化的半导体供应链。
Dwarkesh Patel :到2030年呢?
Dylan Patel :到2030年确实有可能。但今天的现实是:中国所有7nm和14nm的产能都依赖ASML的DUV设备,他们能够从ASML进口的数量其实不小。但关键点是:ASML的大部分收入,尤其是EUV收入,几乎全部来自中国之外,所以在产能规模上,目前仍然是西方+日本占优势。
Dwarkesh Patel :他们正在尝试自己制造DUV和EUV设备。
Dylan Patel :是的,他们确实在尝试做这些事情。真正的问题是:他们能多快提升技术水平,以及能否同时扩大生产规模并提高质量。到目前为止,我们还没有看到这种突破。不过我个人其实比较乐观,认为在未来5到10年内,中国确实有可能做到真正把产量提升上去,真正进入高速发展阶段,因为中国有更多工程师在做这件事,也有更强的意愿投入大量资本。
Dwarkesh Patel :到2030年,中国会不会已经拥有完全国产化的DUV?
Dylan Patel :肯定会有。
Dwarkesh Patel :也就是说,到2030年,他们会有EUV,而且EUV也完全实现国产化?
Dylan Patel :他们会有能够工作的设备,但我不认为他们那时候就已经能大规模制造很多台设备。因为一件事情是让设备能工作,另一件事情是进入生产地狱,就像当年ASML的EUV。在2010年代初期,EUV其实已经在某种程度上可以工作了,但当时的设备:精度还不够且无法规模化生,同时没有针对高产量制造优化,缺乏可靠性。后来他们还必须提升产量,而这些都需要时间,所谓生产地狱本身就是一个非常耗时间的阶段。这也是为什么:从EUV在实验室里能运行,到真正进入晶圆厂(fab)的量产,又花了额外5到7年。
Dwarkesh Patel :你觉得到了2030年,中国大概能生产多少DUV tools?
Dylan Patel :你是说ASML吗?
Dwarkesh Patel :不是,中国。
Dylan Patel :这是个很好的问题。现在其实很难看清这个供应链,我们已经非常努力地去研究它,但有些情况下,中国仍然然在从日本供应商购买组件。如果中国真的要实现完全国产化供应链,那就不能再从日本厂商购买镜头、投影光学系统、stage(晶圆台)这些关键部件,他们必须自己在国内制造这些组件,所以很难判断他们最终能达到什么水平,这基本上像是盲猜。但一种并不太离谱的情况是:他们可能每年能够生产大约100台DUV设备,而ASML现在每年大概能生产几百台DUV设备。
到目前为止,还没有任何一家公司的工艺节点能够达到每月100万片wafer的产量。Elon说过他想做到这一点,中国显然也会尝试做到,但他们未必真的能做到。台积电也在尝试往这个方向走。存储芯片厂商也许也可能达到这个规模——也就是每月100万片wafer,但那也不会是在单一fab里完成。如果你真的去想象这种规模,其实是非常令人震撼的,而且也很难想象整个供应链能够被动员到这种规模,所以我不确定。当然,中国扩大规模的能力是毋庸置疑的强大。
Dwarkesh Patel :某个时间点,我想SemiAnalysis可能会做一次非常深入的研究。比如什么时候中国本土化的半导体生产能力,会超过整个西方世界的总和?如果你把模型里的所有输入都加起来,什么时候中国能大规模拥有DUV机器?什么时候他们能大规模拥有EUV机器?
Dwarkesh Patel :因为还有一个问题是:如果AI的时间线比较长——这里所谓“长”,其实只是到2035年,在历史尺度上其实一点都不长。那你是否应该预期一个世界:中国在半导体领域占据主导地位?这个问题其实问得还不够多。在San Francisco,大家讨论问题的时间尺度往往只有几周,而如果你在San Francisco 之外,大多数人甚至根本不讨论AGI。
所以就出现了这样的问题:假设我们真的实现了AGI,假设出现一种改变世界的技术能够带来几十万亿美元甚至上百万亿美元的经济增长,通过token output 等形式创造巨大价值。但这一切是在2035年发生。那么这对西方vs中国意味着什么?这个问题非常重要。你是不是会觉得:也许SemiAnalysis最终必须写出一套权威模型来解释这件事。
Dylan Patel:当你把时间尺度拉到这么远时,事情其实会变得非常困难。我们现在通常关注的是:跟踪每一个数据中心、跟踪每一个ab、跟踪所有设备、跟踪这些设备最终会被送到哪里,但这些事情的时间滞后其实都比较短。比如说我们可以根据这些信息,对数据中心算力做出比较准确的预测:土地购买、建设许可、燃气轮机采购这些都是可以追踪的。我们知道这些东西都流向哪里,而这些数据正是我们出售的数据。但如果你把时间线拉到2035年,事情就会变得完全不同。不确定性会急剧增加。你的误差范围会变得非常大,因此很难做出可靠预测。
不过从根本上说,如果AI的起飞或时间线足够慢,那么中国当然有可能大幅追赶上来。从某种意义上说,现在我们正处在一个“谷底”。比如说3到6个月前,中国模型的竞争力可能达到了历史上最接近美国的一次,甚至现在也可能是这样。不过Opus4.6和GPT-5.4已经再次拉开了一些差距,但我相信中国很快也会推出新的模型。
未来一个重要变化是:现在很多公司在卖tokens,也就是提供完整的reasoning chain,但未来他们会转向销售:自动化白领工作。比如:自动化软件工程师。你给它一个任务请求,它直接把结果交付给你,中间发生的大量思考过程,它不会展示给你。在这种模式下,把美国模型蒸馏到中国模型里会变得更加困难,因为美国实验室拥有的算力规模越来越大。
Dwarkesh Patel :去年年底,OpenAI大约拥有2吉瓦的算力规模。Anthropic今年会达到2+吉瓦。到明年年底,这两家公司大概都会达到10吉瓦左右的算力容量。
Dylan Patel:中国的AI实验室算力扩张速度远没有这么快,所以到了某个阶段,当你已经无法把这些实验室里的研究成果蒸馏到中国模型中,再加上OpenAI、Anthropic、Google、Meta等公司之间正在进行的这场算力竞赛,最终会出现一个节点:模型性能开始明显分化。
再看现在投入到数据中心的这些CapEx。比如:Amazon(2000 亿美元)和Google(1800 亿美元)这种公司都在投入数千亿美元级别的CapEx。今年美国投入到数据中心的CapEx总规模大约接近1万亿美元。那么问题就变成:这些投资的资本回报率(ROIC, Return on Invested Capital)是多少?你和我可能都会认为,数据中心 CapEx的回报率非常高。如果看Anthropic的收入:1月新增约40亿美元,2月新增约60亿美元(虽然2月更短),接下来要看3月和4月的情况因为现在限制他们增长的主要瓶颈其实是算力。例如Claude Code的稳定性其实很低,原因就是他们的算力 非常紧张。但如果这种趋势持续下去,那么这些数据中心的ROIC就会非常高。到某个阶段,由于这些CapEx投资和模型产生的收入,美国经济在今年和明年可能会开始越来越快地增长。
而中国目前还没有形成这样的下游供应链规模和基础设施投资规模,也就是说,他们还没有建设出这种规模的基础设施,从而能够投资模型训练,获得更强能力,再把这些模型以如此大规模部署。如果看Anthropic,他们现在大约是200亿美元ARR(Annual Recurring Revenue)。根据The Information的报道,他们的利润率不到50%。也就是说,他们大概有130~140亿美元的算力成本(租用成本)。而要支撑这部分算力,背后其实是大约500亿美元的CapEx投入。换句话说:有人已经为Anthropic投入了500亿美元基础设施,才让他们产生现在的收入。而中国目前还没有进行这种规模的投资。如果未来Anthropic的收入再增长10倍——问题不是是否(if),而是何时(when),那时候,中国将没有足够的算力来进行同规模部署。
所以某种意义上,我们可能正处在一种“快速起飞(fast takeoff-ish)”的阶段。并不是说我们在讨论某年之前建成Dyson Sphere这种级别的事情,而是说明AI收入正在以极快速度复利增长,这种增长会直接影响宏观经济增长。同时,这些AI实验室正在积累的资源规模也在飞速增长,而中国目前还没有形成这种增长。在这种情况下,美国和西方其实是在逐渐拉开差距。
当然也存在另一种可能,这些基础设施投资的回报率其实一般,并没有大家期望的那么好。比如也许Google把自由现金流降到0,然后明年投入3000亿美元CapEx其实是个错误。也许华尔街的悲观派是对的,也许那些不相信AI的人才是对的。如果是这样的话,美国建了大量算力基础设施,但没有得到很好的回报,而中国则成功建立了一个完全垂直整合的本土半导体供应链。而不是像西方由美国、日本、韩国、东南亚、欧洲这些国家共同组成的分散供应链。如果AI到达关键能力所需时间更长,比你这个播客的大多数嘉宾认为的还要长的话,某个时间点中国就可能反超美国的规模。
Dwarkesh Patel :也就是说:时间线很短美国赢,时间线很长中国赢。
从晶圆厂到光刻机:AI算力扩张的真正卡点
Dwarkesh Patel :好,我们回到memory,现在华尔街和行业内部其实已经意识到这个问题有多大。但普通人可能还没有意识到它的重要性。我们刚才讨论了memory shortage。之前我问过一个问题:如果EUV不够,能不能退回7nm?现在我想问一个类似的关于memory的问题:HBM是由DRAM制造的,但HBM每片wafer的bit密度其实比普通DRAM低3~4倍。那未来的AIaccelerators是否可能直接使用commodityDRAM,而不是HBM?这样我们就可以用相同的DRAM生产更多容量。我之所以觉得这可能成立,是因为:如果未来是AI agents在后台自动工作,而不是像现在这样同步聊天的chatbot应用,那我们可能不再需要极低延迟。HBM之所以把DRAM堆叠(stack)起来,就是为了获得更高带宽。所以未来是否可能:做一种不使用HBM的accelerator?某种意义上是Cloud Code的反面:Cloud Code fast和Cloud Code slow
Dylan Patel :从根本上来说,愿意为tokens支付最高价格的那类用户,往往也是对价格最不敏感的用户。在一个资本主义社会中,算力最终会流向那些价值最高的商品,而市场是通过支付意愿来决定这一点的。
从某种程度上讲,Anthropic确实可以发布一种slow mode,比如推出Claude slow mode,这样tokens per dollar可能会显著提高。他们甚至可能把Opus4.6的价格降低4~5倍,同时把速度降低2倍。实际上,在inference throughput vs speed 的曲线上,这种权衡已经存在。但他们没有这么做。原因很简单:没有人真的想用一个很慢的模型。即使在agentic tasks中也是如此模型能够连续运行几个小时当然很好。但如果模型变慢,从几个小时变成一整天,但没有人真的愿意等待一整天,因为高价值任务通常也有时间敏感性。
所以我很难想象未来系统会用DDR/普通DRAM替代HBM。技术上当然可以,但会遇到几个问题。首先是IO限制,芯片是一个固定尺寸的结构,所有IO接口都在芯片边缘(edge)。很多GPU的布局其实是这样的:左右两侧是HBM,上下两侧连接其他芯片的IO,如果你把HBM换成DDR:带宽会大幅下降。虽然容量可能增加,但系统真正关心的指标其实不是bits per wafer,而是bandwidth per wafer。
Dwarkesh Patel :因为真正限制flops的,其实是能否把下一次矩阵计算所需的数据及时送入和取出,所以关键是带宽。
Dylan Patel :对,比如:读取model weights和读写KV cache,这些都需要带宽。而很多情况下,GPU其实并没有被memory算力限制。系统可能被以下因素限制:flops、network bandwidth、 memory bandwidth、memory算力如果简化来看,大概就是这四个瓶颈。如果改用DDR,每片DRAM wafer的bit数量增加4倍,但整个系统的瓶颈会发生变化,系统会变慢,而且很多flops会被浪费,因为GPU会一直等待内存数据。
Dwarkesh Patel :那HBM和普通DRAM的带宽差距大概是多少?
Dylan Patel :以HBM4为例,一个HBMstack有2048-bit总线,大概占13mm的芯片边缘宽度,传输速率约10gigatransfers/s,算下来≈2.5TB/s每个HBM stack。而如果用DDR5,在同样的边缘面积下,大概只有64或128bit宽度,传输速率约6.4–8GT/s,带宽大约只有60–128GB/s,而HBM是2.5TB/s。也就是说在相同edge area下,带宽差距是一个数量级以上。而芯片尺寸是有限的,最大die大概26mm×33mm。边缘面积有限,中间还要放compute units。你可以增加SRAM或cache,但最终仍然会被memory bandwidth限制。
Dwarkesh Patel :这就引出了另一个问题:为了给AI腾出足够的内存,需要减少哪些需求?如果HBM需要4倍wafer面积,那就意味着:你需要减少4倍的消费电子DRAM需求(比如手机、笔记本),才能为AI释放1bit的HBM。那未来1–2年会发生什么?你在new sletter里说过2026年Big Tech的CapEx里有30%用于memory。如果总CapEx是6000亿美元,那30%都用于memory,这也太疯狂了吧?
Dylan Patel :如果把memory和logic分开计算,里面有一部分是NVIDIA的利润加成(margin stacking)。但总体来说确实差不多,大约三分之一的CapEx都流向memory。
Dwarkesh Patel :当这种内存紧缺(memory crunch)真正到来的时候,接下来一两年我们应该预期会发生什么?
Dylan Patel :内存紧缺只会变得越来越严重,价格也会持续上涨,而且会以不同方式影响市场的各个部分。这就引出了一个问题:人们会不会越来越讨厌AI?答案是会的。因为智能手机和PC不再会逐年变好,反而可能会逐渐变差。
Dwarkesh Patel :如果看一台iPhone的物料成本(BOM),内存大概占多少?如果内存价格翻倍之类的,那iPhone的成本会具体增加多少?
Dylan Patel :我记得iPhone大概是12GB内存。以前每GB成本大概是3~4美元,也就是总共50美元左右。但现在内存价格大概涨了三倍,如果按DDR每GB12美元算,那就是150美元,对比之前多了100美元成本。而且苹果本身是有利润的,不可能完全自己承担这个成本。所以这100美元的DRAM成本上涨,不会完全由苹果吃掉。再加上NAND(存储)也有类似涨价,其实整机成本可能上涨150美元左右。最终结果是:消费者买一台iPhone,可能要多付大约250美元。
当然,这还是“去年内存价格vs现在”的对比。苹果因为有长期合同(3个月、6个月甚至一年),所以短期不会完全感受到冲击,但最终还是会反映到新一代iPhone上。但这是高端市场,每年也就几亿台,真正的大头是中低端市场。以前一年卖14亿台手机,现在大概11亿台,我们预测可能会下降到8亿,甚至6~5亿台。我们从亚洲(中国、新加坡、香港、台湾)的数据看到,像小米、OPPO已经把中低端手机的出货量砍了一半。原因很简单:对1000美元的iPhone来说,涨150美元还能接受,但对低端手机来说,内存和存储占BOM比例更高,同时利润更低,厂商几乎没法吸收成本。
而且这些厂商通常也没有长期内存采购合同,所以冲击更直接。如果手机出货量减半,主要是中低端在减,高端下降没那么多。这意味着什么?不是“内存需求减半”,因为高端手机还在卖且每台用的内存更多,消费者依然占据超过一半的内存需求,但市场结构发生变化:高端用户(比如你我)还是会买贵手机而低端市场崩得更厉害,PC市场也是类似情况。
结果就是:释放出来的DRAM,会流向AI芯片。因为AI公司:愿意签长期合同支付更高价格,并且能从终端用户那里赚更多钱,这可能会让更多人“讨厌AI”。你现在已经能看到很多梗图,比如PC玩家社区会说:“就为了生成猫跳舞的视频,内存价格翻倍,我连显卡都买不起了。”等内存价格再涨一轮,这种情绪会更明显,尤其是DRAM。
还有一个有意思的点:不只是DRAM,NAND也在涨价。过去几年,这两个市场几乎没有扩产。但区别是NAND在手机/PC中的占比更高,DRAM更偏向AI。所以当消费电子需求被压缩,DRAM释放大量流向AI,而NAND释放分散到更多市场。因此,DRAM的涨价会比NAND更猛烈
Dwarkesh Patel :NAND也涨,是因为数据中心用很多SSD吗?
Dylan Patel :是的,但规模没有DRAM那么大。
Dwarkesh Patel :好的,所以你的意思是NAND的价格也会上涨,因为数据中心也在用一部分,只不过需求没有那么大。相比之下,HBM的需求更强,这点说得通。还有一个我之前没意识到的点,是我在看你的一些newsletter时才明白的:基本上,未来几年限制逻辑芯片(logic)扩产的那些因素,其实和限制我们生产更多内存晶圆(memory wafers)的因素非常相似。甚至可以说是同一个瓶颈——比如同一台设备,EUV光刻机,内存生产也需要用。那为什么我们不能多生产一点内存呢?
Dylan Patel :就像我之前提到的,目前的瓶颈并不一定是EUV光刻机——至少在现在或者到明年都不是。这些问题会在这十年后期才逐渐变成真正的限制。但目前来说,更大的约束在于:他们在物理上还没有建好足够多的晶圆厂。
在过去三到四年里,这些厂商其实并没有去新建晶圆厂。原因是当时存储价格非常低,利润也很低,甚至在2023年存储业务是亏钱的。所以他们的想法就是那就先不建新厂了。后来市场确实在慢慢复苏,但一直到去年之前,都没有真正变得特别好。到2024年,我们当时就在反复强调一个趋势:KV cache会变大,进而意味着对内存的需求会大幅上升。
其实我们已经讲这个逻辑讲了一年半到两年了。那些真正理解AI的人,当时就已经开始大举押注存储(long memory)了。你也确实看到了这种市场动态的发展,但价格真正反映这一点,其实花了很长时间才发生。也就是说,一个本来就很明显的逻辑:KV cache变大需要更多内存,加速器里一半成本是内存。那当然,这些公司最终一定会开始疯狂加大在内存上的投入。
后来市场慢慢恢复,但直到2024年才真正好起来。我们当时就在说:KV cache变大,内存需求暴涨。但这个逻辑用了整整一年才反映到价格上。然后价格上涨之后再过3~6个月厂商才开始建厂,建厂需要2年,所以真正新增产能要到2027~2028才能上线。
在这之前,你会看到一些“非常激进”的操作来扩产,比如收购旧厂、改造现有产线、极限压榨产能,但问题本质是没地方放设备,而且不只是EUV,还有很多其他设备也是瓶颈。
除此之外,在逻辑芯片里,EUV占成本~28,在DRAM里,占比只有十几%,但在上升,所以DRAM的瓶颈不仅是EUV,还有其他设备(比如沉积、刻蚀),像Applied Materials、LamResearch这些公司也在扩产。但最终问题还是:晶圆厂是人类建造的最复杂建筑之一,建一个就要两年。
Dwarkesh Patel :我最近采访了Elon Musk,他的计划是要建一个“giga fab”“tera fab”这种量级的晶圆厂,并且会建设洁净室(clean rooms)。我有几个问题:第一,你觉得像Elon这样的人,有没有可能把这件事做得比传统方式快得多?这里我说的不是设备(tools),而只是建厂房本身。第二,仅仅是建一个洁净室,这件事本身到底有多复杂?如果要“极限加速”去建,它的难度在哪里?像Elon那种“快速推进”的风格,真的能显著提速吗?(如果今年或明年的瓶颈确实是在这上面的话),第三,就算他能加速建洁净室,这件事真的重要吗?如果按照你的判断,两年之后瓶颈已经不在洁净室,而是在设备本身上,那提前建好这些空间还有意义吗?
Dylan Patel :任何复杂供应链都是这样:需要时间,而且瓶颈会不断变化。即使某个环节不再是瓶颈,也不代表这个环节就没有利润空间,比如能源:几年后可能不再是核心瓶颈,但仍然会高速增长、仍然有利润。在晶圆厂这件事上,今年和明年,洁净室是最大瓶颈,到2028、2029、2030,仍然会有约束,只是形式不同
关于Elon,他的优势在于能够调动大量资源+并吸引顶尖人才来做极具挑战性的事情。他吸引人的方式,就是去做“最疯狂的项目”,比如去火星、可回收火箭、自动驾驶和人形机器人,这些愿景可以吸引那些认为这是“最重要问题”的人,但在AI领域,这种优势没那么明显,因为所有人都在追求AGI。在半导体领域,他提出的目标是:建一个每月100万片晶圆的超级晶圆厂,目前没有人做到这个规模。理论上,他确实有可能招到一批非常优秀的人,去完成这个“英雄级项目”,第一步就是建洁净室,这一点他是有可能做到的。但他那种“能删就删、不够干净也没关系”的工程思路,在这里完全不适用。晶圆厂必须极其干净,整个空气系统大概每3秒就要完全置换一次,空气中的颗粒数极低。洁净室本身建造可能需要1~2年,初期不会特别快,但随着经验积累会加速。
真正困难的不是厂房,而是工艺技术和实际生产晶圆,这个积累非常深厚,很难快速复制。目前最复杂的系统集成就是台积电、Intel、Samsung即便这几家公司里,有的做得还不算完美,但整体复杂度已经极高。
Dwarkesh Patel :那如果到了2030年,突然出现一种彻底颠覆的不用EUV、更简单、可以大规模生产的技术,这种“从天而降的突破”,概率大概有多高?
Dylan Patel :如果是那种“简单、易扩展”的革命性技术,概率非常低。现在确实有一些公司在研究新方向,比如用粒子加速器或同步辐射光源,产生13.5nm(EUV)甚至更短波长(比如7nm)的光。但问题是这些本身就是“巨型粒子加速器”级别的复杂系统,所以并不更简单,反而更复杂。确实可能带来比EUV更大的突破,但依然很难规模化。至于那种“突然出现一个超级简单、直接写入、还能大规模生产”的方案我不太相信。虽然也有人在尝试类似方向。
Dwarkesh Patel :我之所以这么问,是因为回顾Elon以前的项目,比如火箭,看起来也是极其复杂的事情。那换个角度:未来要扩大内存产能,是不是可以像做3DNAND一样做3DDRAM?然后回到DUV工艺?
Dylan Patel :这就是大家的一个希望。目前来看,所有人关于3DDRAM的路线图仍然是:你依然会使用 EUV(极紫外光刻),因为你需要更高的对准精度。原因是,当你在进行后续这些工艺步骤时,现在所有结构都是垂直堆叠的,层数更多,一层叠一层,同时你还希望线距更小、更紧密所以总体来说,大家还是在尝试继续用EUV来做这些,但是如果3DDRAM实现的话,它会带来一个变化:同样一次EUV曝光(single EUV pass)能制造出的bit数量会大幅增加。如果你按这个逻辑去算的话,在3DDRAM下,这个数字会显著提升——这就是大家的期待。不过目前的路线图大致是这样的:从现在的6F²单元(cell)发展到4F²单元,最终在本十年末或下一个十年初实现3D DRAM。所以这里面仍然有大量的研发(R&D)、制造、工艺整合需要完成。我不会说这件事不可能发生,它非常有可能会实现。
但它同时也会要求对晶圆厂进行大规模的重新改造。因为一个晶圆厂里的设备构成是非常复杂的:光刻设备其实反而变化没那么大,但其他设备变化很大,比如:化学气相沉积(CVD)、原子层沉积(ALD)、干法刻蚀(dry etch)、各种不同化学体系的刻蚀设备,不同工艺节点会用到完全不同类型的设备组合。
你不可能在短时间内把一个逻辑芯片厂直接改成DRAM厂,或者反过来也不可能把一个NAND厂迅速改成DRAM厂。同样地,即使是现有的DRAM厂,要从一个工艺节点升级到下一个节点,也需要大量改造,比如从1α→1β→1γ。这些升级过程中需要引入EUV,需要改变沉积和刻蚀的化学体系,需要增加新的设备,而且EUV设备本身也必须到位。更进一步来说,一旦进入3DDRAM这种变化会更加剧烈所以晶圆厂需要进行大量设备层面的重构(retooling),而这反而可能造成整体上对EUV的需求占比下降
但从历史上看光刻在晶圆成本中的占比其实是在上升的,比如大约2014年从约16%增长到17%,过去15年增长约30%。对于DRAM来说以前是减少的,现在是增加的,很可能会进入20%+的区间。但一旦进入3D DRAM:EUV在总晶圆成本中的占比会再次下降
Dwarkesh Patel :你其实没那么关心成本占比,更关心它是不是瓶颈。
Dylan Patel :但成本占比本身是一个代理指标。
Dwarkesh Patel :那如果你是黄仁勋、Sam Altman这种人,会从AI计算扩张中获益很多。他们会去找台积电说:“为什么不能做更多X、Y、Z?”但你的意思是不是台积电做什么,其实没那么重要,甚至即使Intel、Samsung建更多晶圆厂从长期来看瓶颈还是会卡在ASML(光刻机)、其他设备厂、材料供应商这个理解对吗?另外的问题是硅谷的人是不是应该现在就去荷兰找ASML?说服他们多造EUV设备,以便2030年有更多AI算力?
Dylan Patel :这其实有点像我们在2023–2025年看到的一个现象。那些提前看到了电力瓶颈的人去找Siemens(三菱、GE Vernova),提前买下燃气轮机产能。结果现在他们可以用更高价格转卖这些资源同样的逻辑理论上也可以用于EUV。但问题是:ASML不会随便把设备卖给任何人,因为EUV比燃气轮机贵得多,产量也少得多。虽然理论上你可以提前下订金锁定产能。
比如可以去荷兰对ASML说:“我给你10亿美元两年后我要优先买10台EUV”然后等市场意识到产能不足,再把这个“购买权”高价卖出去。本质上是在做产能套利(算力 arbitrage),但问题是ASML不一定会同意这种玩法。
Dwarkesh Patel :但至少这能给他们一个需求信号,让他们扩产吧?
Dylan Patel :有可能,我同意。
Dwarkesh Patel :你的意思是不是即使他们想扩产,也未必做得到?
Dylan Patel :对,如果他们扩不了产,而需求又在暴涨,那最理性的行为就是提前锁产能,然后转卖。因为需求远高于他们的预测,产能增长跟不上。所以你可以提前签远期合同,等市场发现“完蛋了产能不够”,再高价卖出。这部分利润本来应该属于ASML/台积电,但你把它赚走了,不过问题还是他们未必允许你这么做。
电力与基础设施的瓶颈与解决方案
Dwarkesh Patel :好,我们现在聊回电力。听起来你的意思是电力是可以不断扩展的?
Dylan Patel :也不是“无限扩展”,但基本上是可以扩展的。
Dwarkesh Patel:如果我没记错的话,你在那篇关于电力的博客里提到——或者说暗示——像GE Vernova、Mitsubishi和Siemens这些公司一年大概能生产60吉瓦的燃气轮机。当然还有一些其他电力来源,不过相对来说没有燃气轮机那么重要。我猜其中只有一小部分会被分配给AI。
所以如果到2030年,我们有足够的逻辑芯片和内存,能够支撑每年200吉瓦的算力电力需求,你认为电力系统会继续扩张到200吉瓦以上吗?还是你觉得会出现别的情况?
Dylan Patel:是的,现在大概是在20–30吉瓦的水平。先说明一个关键点:当我说这些吉瓦时,我指的是critical IT算力,也就是服务器真正插上电之后消耗的电力。但在电力系统里会有很多损耗,比如:输电损耗、电力转换损耗和冷却系统损耗。因此,如果今年是20吉瓦,或者到本世纪末达到200吉瓦,实际需要的发电能力要再增加20%–30%才能覆盖这些损耗。
另外还有容量系数。涡轮机不会100%满负荷运行。例如美国最大的电网之一PJM Interconnection,在电力规划模型里通常会预留约20%的备用容量。而且在这个基础上,涡轮机通常只按90%的可用能力来计算,因为需要考虑维护、故障和可靠性等问题。所以现实中,电站的额定装机容量总是远高于真正用于IT设备的电力容量。
但电力来源不仅仅是燃气轮机。如果只靠燃气轮机发电,那确实简单,但现实世界远比这复杂。那篇博客的核心观点是:虽然联合循环燃气轮机基本只有三家公司生产,但我们其实还有很多其他办法来增加电力。
比如:1、航空衍生燃气轮机(aeroderivative turbines)可以把飞机发动机改造为发电用的燃气轮机。现在甚至有新公司在做,比如Boom Supersonic,他们正在和Crusoe合作。
2、中速往复式发动机(reciprocating engines)也就是类似柴油发动机那样的旋转发动机。其实大约有十家公司在生产这种发动机,比如Cummins。我来自美国乔治亚州,人们经常讨论Ram卡车里的Cummins发动机。但现在汽车制造需求在下降,这些公司其实有大量产能,可以转向为数据中心发电。虽然这种方案没有联合循环燃气那么高效,但可以从柴油改成天然气快速规模化部署。
3、船用发动机,大型货船使用的那些巨型发动机也可以发电。比如Nebius就在为Microsoft新泽西的数据中心使用船用发动机来发电。
4、燃料电池例如Bloom Energy。我们过去一年半一直很看好这家公司,因为他们扩产速度很快,投资回收周期也非常短。虽然成本可能比联合循环燃气高一些,但部署速度快。
5、太阳能+储能电池,随着成本持续下降,这种组合也可以迅速上线。
6、风电,风电的功率会波动,比如安装一个风机,平均可能只有15%的输出功率。但如果搭配储能电池,仍然是可行的电力来源。
还有一个关键点:电网其实是按极端峰值需求设计的。比如一年中最热的几天,空调用电会达到最高峰。这种峰值通常比平均负载高10%–20%。但这种峰值一年只出现几天,每天只持续几个小时。
如果建设足够多的大型储能电池,或者只在高峰运行的调峰电站(peaker plants),这些调峰电站可以是燃气电站,工业燃气轮机,联合循环电站或电池储能,那么就可以释放出电网平时闲置的那部分容量。这样一来,就可能额外释放出美国电网约20%的电力容量给数据中心使用。而现在数据中心只占美国电力的3%–4%,到2028年可能会上升到10%。如果能释放这20%的电力容量,其实就能支持大量新的AI数据中心。而且美国电网规模是太瓦级(terawatt level),而不是几百吉瓦级。
当然,这并不容易:需要复杂工程,需要承担风险,需要新技术。但Elon Musk是最早尝试一种方案的人:在数据中心电表后(behind-the-meter)直接建设燃气发电设施。从那之后,我们已经看到各种不同的电力解决方案开始出现。这些方案并不简单,但人们能够做到。而且相比之下,电力供应链其实比芯片供应链要简单得多。
Dwarkesh Patel:挺有意思的。我记得他在采访里提到一个观点:他正在研究的一种特定燃气轮机,它使用的特定叶片,现在的交付周期已经排到2030年以后了。而你的观点基本是:没关系,因为还有很多其他方式可以发电。所以即使效率低一点也没问题。
比如现在联合循环燃气轮机的资本支出大概是1500美元/千瓦。而你的意思是:即使某些技术的成本明显更高,或者其他发电方式的成本下降到接近这个水平,其实也完全可以接受。
Dylan Patel:没错,完全正确。实际上成本甚至可以达到3500美元/千瓦。也就是说,可能是联合循环电站成本的两倍。但从TCO(总拥有成本)来看,这对GPU成本的影响其实很小。
举个例子:我们之前讨论过Nvidia Hopper的算力价格,大约是1.40美元/小时。如果电价翻倍,那么算力成本可能从1.40美元变成1.50美元。也就是说能源成本上涨,只让GPU使用成本每小时增加10美分。
但问题是:模型能力提升的速度太快了。相比之下,这10美分的能源成本上涨几乎可以忽略,因为模型带来的边际价值远远更高。
Dwarkesh Patel:明白了。那你刚才提到,如果释放电网容量,大概可以释放20%的电网能力。美国电网规模大约1太瓦(1TW),那就是200吉瓦。理论上,如果通过大型储能电池来提升电网可以承载的负载水平,就能释放这部分容量。
Dylan Patel:理论上是这样,但监管机制并不简单。
Dwarkesh Patel:假设这种情况真的发生了,那就是200吉瓦。但如果只看你刚才提到的那些天然气发电来源——不同类型的发动机、燃气轮机等等——综合起来,到2030年之前,它们大概可以释放多少电力容量?
DylanPatel:我们在追踪一些数据。光是天然气发电设备这一类,就有16家以上制造商在生产各种设备。确实,联合循环燃气轮机只有三家主要厂商,但整体来看,我们跟踪了16家供应商,并且收集了他们的订单情况。结果发现:到本世纪末,已经有数百吉瓦规模的订单是为数据中心准备的。而且我们预计,到那时新增电力容量的一半左右会是“表后发电”。
所谓表后发电,就是:数据中心自己建发电设施,而不是直接接入电网。通常来说,这种方式其实比接入电网更贵。但现实是:电网接入审批很慢、许可流程复杂、电网互联排队很长,因此很多公司宁愿多花钱,也要自己建电站。
至于这些“表后发电”用什么技术,其实范围很广:往复式发动机、船用发动机、航空衍生燃气轮机、联合循环电站(虽然不太适合表后)、Bloom Energy的燃料电池、太阳能+储能电池,基本上任何一种都可能被采用。
Dwarkesh Patel:你的意思是,这些技术单独一种都可能提供几十吉瓦?
Dylan Patel:对。每一种单独都可能做到几十吉瓦。而全部加在一起,就可能达到几百吉瓦。所以从电力角度来看,这其实足以支撑AI数据中心扩张。当然,这个过程会带来很多变化。比如:电工工资可能会翻倍甚至翻三倍、会有大量新人进入这个行业、也会有很多人因此赚到钱,但我并不认为电力供应本身会成为AI的主要瓶颈。
Dwarkesh Patel:举个例子,现在在Abilene,Texas,Crusoe正在为OpenAI建一个1.2吉瓦的数据中心。我所知,在建设高峰期,大概有5000名工人在那里工作。如果把这个规模扩大到100吉瓦,即使未来建设效率提高,也可能需要40万人。
但美国劳动力结构是这样的:大约80万名电工,数百万建筑工人
问题是:如果未来我们进入一个每年新增200吉瓦数据中心的世界,那最终会不会劳动力变成瓶颈?还是你认为这其实并不是一个真正的限制?
Dylan Patel:所以,劳动力其实是一个非常巨大的限制因素。很多人需要被培训。另外,很可能我们还会开始从全球引进最顶级的技术工人。比如说,一个在欧洲工作的高技能电工,原本可能在参与一些电站的拆除或维护项目,现在完全可能来到美国,去建设数据中心,负责高压电系统、数据中心内部的电力传输等工作。类似这样的情况是很可能发生的。另外,未来人形机器人,或者至少各种自动化机器人,也可能开始参与建设。
但真正能减少人力需求的关键因素,其实是模块化生产——也就是把很多东西在工厂里制造好,而不是在现场一点点组装。这些工厂很多会在亚洲,比如韩国、东南亚和中国,这些地区未来会生产越来越多已经集成好的数据中心模块,然后直接运到美国。现在的模式是:你可能会把服务器机柜运到数据中心,再把来自不同地方的组件接在一起。但未来的模式可能是:先把这些东西运到一个工厂,在工厂里把整个系统集成好。
比如说:一个2MW(兆瓦)的模块,从高压电输入开始,到数据中心机柜使用的电压,甚至直接变成DC直流电,全部都已经在工厂里做好。此外,冷却系统也可以提前集成,因为水管工也是一个很大的瓶颈。
再举个例子:现在的情况是,一个机柜一个机柜地安装,需要很多人去接电线、接网络和接各种系统。未来可能会这样做:不是运一个机柜,而是运一个skid(整体模块平台),上面已经装好一整排服务器。这些都在工厂里提前组装好,再运到数据中心。
今天一个服务器机柜大概是120–140kW。但到了下一代系统,比如Nvidia Kyber这样的架构,一个机柜的功率可能接近1MW。如果是一整排服务器模块,那么里面会包含机柜、网络设备、冷却系统和电源系统,全部都已经集成。这样当设备运到现场时,需要连接的东西就会少很多,比如网络光纤、电力连接、水管系统都会大幅减少。因此,建设数据中心所需要的人力就会显著下降,从而大大提升建设速度。
当然,在这个过程中:有些公司会更快采用新技术,有些公司会更慢。比如Cursor、Google和Meta都已经在大量讨论这种模块化数据中心的建设方式。而其他公司可能会慢一些。
最终会出现一种情况:采用新技术的人,可能会遇到新的延迟问题,不采用的人,则可能遇到劳动力不足的问题。因为整个产业链非常复杂,所以市场中一定会出现各种供需错位。但总体来说,这个问题仍然足够简单,人类可以通过:资本主义机制和工程创新,在所需要的时间尺度内把它解决。
“太空GPU”构想的可行性分析
Dwarkesh Patel:好。那说到一些更宏大的问题。Elon Musk最近非常看好一种概念:“太空GPU”。
如果你说得对——也就是说,地球上的电力其实不是瓶颈——那我猜马斯克的另一个论点就是:即使地球上有足够的燃气轮机和电力设备,我们也很难获得许可去建设数百吉瓦的数据中心。你认可这个说法吗?
Dylan Patel:从土地角度来说,其实问题不大。美国很大,而数据中心其实并不占很多土地。所以土地是可以解决的。至于审批,确实有一些挑战,比如空气污染许可。不过在特朗普政府时期,这些流程已经变得更容易。如果你去Texas,很多繁琐的审批其实可以绕开。
比如Elon Musk之前在Memphis建数据中心时,就遇到很多复杂问题,比如:建设电厂、跨州电力问题、各种审批流程。这些都涉及到他为xAI建设的Colossus数据中心。但实际上,如果是在德州中部这种人口稀少的地方,很多事情都会简单得多。
Dwarkesh Patel:既然马斯克自己就住在德州,那为什么他当初不直接去德州建?
Dylan Patel:我猜原因之一是:他们当时过度依赖电网电力,因为那是他们短期最需要的东西。
Dwarkesh Patel:你之前提到过,那里有一个接入电网的铝冶炼厂?
Dylan Patel:不是铝厂。其实是一个已经停产的家电工厂。
但他们选择那个地点,可能有很多因素,比如:那里有现成的电网电力,有水资源,有天然气管道(他们可能一开始就打算接入),以及其他各种限制条件。还有一个可能是:那里更容易找到电工和建筑工人。不过说实话,我也不完全确定他们为什么选那个地点。
但我猜如果可以重新选,马斯克可能会选德州。毕竟在监管和审批方面,他后来遇到了很多问题。但总体来说:美国土地很多,有50个州,事情总能找到地方去做。甚至有很多小地方,你可以在6个月到1年的时间里,把所有需要的工人运过去。根据不同的工程项目,甚至可能只需要3个月。可以给他们提供临时住房和很高的工资。
因为从整体成本来看,劳动力其实非常便宜。尤其是和以下东西相比:GPU、网络设备和AI产生的最终价值,这些的价值要高得多。所以完全有空间为这些成本买单。而且现在很多公司也在分散布局数据中心,比如分布在澳大利亚、马来西亚、印度尼西亚和印度。这些地方的数据中心建设速度都在加快。
不过目前,超过70%的AI数据中心仍然在美国。这个趋势仍然在持续。所以总体来说,人们正在逐渐找到办法来建设这些设施。相比之下,在德州、怀俄明州、新墨西哥州这些偏远地区处理审批问题,可能远比把数据中心送到太空要容易得多。
Dwarkesh Patel:好吧,除了你刚才说的那个——一旦考虑到电力在数据中心总成本中其实只占很小一部分,太空方案在经济上就不那么成立之外——你还有哪些理由对这个想法持怀疑态度?
Dylan Patel:是的,很显然,在太空中电力基本上是免费的。
Dwarkesh Patel:对,这就是这么做的原因。
Dylan Patel:没错,这是这么做的原因。但接下来还有一系列反对的理由。问题在于,即便电力成本翻倍,它依然只占GPU总成本的一小部分。真正的核心挑战在于其他方面,而且我们已经在实际中看到这些问题如何拉开差距。
我们有一个叫cluster max的体系,会对各种云厂商进行评级,我们测试了超过40家云公司,包括超大规模云厂商和新兴云(neo cloud)。除了软件之外,这些云之间最大的差异,其实在于它们部署和处理故障的能力。GPU的可靠性非常糟糕,即便是今天,大约有15%的Nvidia Blackwell在部署后需要返修(RMA)。你必须把它们拆下来,有时候只是重新插拔一下,但有时候必须把它们寄回NVIDIA或者其合作伙伴进行维修。
Dwarkesh Patel:那你怎么看Elon Musk的一个观点:他说在最初阶段之后,GPU实际上并不会那么容易坏?
Dylan Patel:但问题是,你现在的流程是:你已经做了这些测试,把设备拆开,再把它们装到飞船上,送到太空,然后再重新上线。这整个过程需要几个月时间。
如果你的前提是,GPU的有效使用寿命是若干年,比如5年,而你额外多花了3个月,甚至更现实一点说是6个月,那么这就相当于你损失了大约10%的有效使用周期。
而且因为当前算力是高度稀缺的,这些算力在最初的6个月其实是最有价值的。因为现在的供给比未来更紧张,这些算力可以用来:训练更好的模型、更早产生收入以及用这些收入去融资,进一步扩大规模。所以“现在”永远是最关键的时间点。但你却可能把算力部署推迟了6个月。而且在现实中,我们已经看到,有些云厂商在地球上部署GPU都需要6个月,而有些则明显更快。所以问题是:太空方案怎么可能比直接在地面部署更快?我看不出你如何在地面测试完、拆解、运输、再发射到太空,还能比直接就地部署更高效。
Dwarkesh Patel:我还想问的是太空通信的拓扑结构问题。现在Starlink的卫星之间通信速率大约是100Gbps。你可以想象,如果用优化过的卫星间激光通信,这个速度可以大幅提高,甚至接近InfiniBand的带宽,比如400GB/s。
Dylan Patel:那是每个GPU的带宽,不是每个机柜的。
Dwarkesh Patel:明白了。
Dylan Patel:对,你得再乘以72。而且那还是Nvidia Hopper的水平,到了Blackwell和Rubin,带宽还会再翻倍、再翻倍。
Dwarkesh Patel:那在推理阶段呢?是不是可以只在单个scale-up域内完成一个batch的计算,而不需要跨系统通信?
Dylan Patel:有些模型可以放在一个scale-up域里运行,但很多时候你还是需要把模型拆分到多个scale-up域。随着模型越来越稀疏,这是一个总体趋势——你会希望每个GPU只激活少数几个专家(experts)。而现在最先进的模型已经有几百甚至上千个专家,那么你就需要在几百甚至上千个芯片上运行这些模型,未来也是如此。这样一来,你就必须把这些芯片连接在一起。
Dwarkesh Patel:那就会很困难。我本来以为,如果可以在一个scale-up内完成推理,可能还更现实一点。但如果不是这样的话……
Dylan Patel:是的,把这些芯片连接起来本身就是一个问题。而且你也不可能把一颗卫星做得无限大,物理上有很多限制。所以你必须在卫星之间建立互联。而这些互联本身是非常昂贵的。在一个地面集群中,网络大概占总成本的15%–20%。但现在你要把它变成太空激光通信系统,而不是那种可以大规模生产、用可插拔光模块实现的简单激光通信。而这些系统的可靠性其实也很差,甚至比GPU还差。在一个数据中心的生命周期中,你经常需要:拔掉光模块,清洁再重新插上。各种随机问题都会发生。这些设备本来就不算特别可靠。
而现在你面对的是一个更复杂、更昂贵的太空激光通信系统,来替代原本已经高度成熟、规模化生产的光模块方案。
Dwarkesh Patel:那综合来看,这对“太空数据中心”意味着什么?
Dylan Patel:所以本质上,太空数据中心并不会因为“能源优势”而真正受益。它实际上还是受制于同一个瓶颈资源:到本世纪末,我们每年大概只能生产200吉瓦对应的芯片算力。那么问题是,这些算力要部署在哪里?是在地面还是在太空,其实没有本质区别。因为电力是可以建设出来的。从人类的能力和产能来看,未来是有可能做到全球每年新增1太瓦级别的各种电力的。在某个时间点,我们确实会跨过一个临界点,让太空数据中心变得合理。但那不是这个十年,而是更遥远的未来——当以下条件出现时:能源真正成为重大瓶颈、土地和审批成为更大的限制以及芯片不再是瓶颈。而现在,芯片才是最大的瓶颈。
所以你希望的是:芯片一旦生产出来,就立刻投入AI计算。因此现在有很多优化方向,都是在加快部署速度,比如数据中心模块化,甚至机柜模块化。比如你可以做到:在数据中心现场只安装“芯片”,其他所有东西——供电、布线、结构——都已经提前准备好。这些事情,在太空中是做不到的。
归根结底,在一个“芯片受限”的世界里,唯一重要的事情就是尽快让芯片开始产出token(计算价值)。
也许到2035年左右,当半导体行业的产能大幅提升,比如:ASML、ZEISS、Lam Research和Applied Materials以及晶圆厂都大幅扩产之后,当芯片供应不再紧张,我们才会开始优化各种“细节参数”。能源成本(10%–15%)、或未来可能到30%(比如ASIC普及、NVIDIA利润下降)、数据中心建设成本和晶圆厂建设成本,这些才会成为优化重点。
但关键是:Elon Musk从来不是靠优化20%来取胜的。他成功的方式一直是做到10倍提升(10x),就像SpaceX,Tesla。这些成功都不是靠小幅优化,而是靠数量级跃迁。所以太空数据中心未来可能确实会带来10倍级别的提升,当地球资源变得极度紧张,但那不会发生在这个十年。
Dwarkesh Patel:对,可以补充一点直觉:地球上的土地其实是非常多的。尤其是如果未来进入一个“单个机柜就是兆瓦级”的世界,那芯片本身占的空间几乎可以忽略。
Dylan Patel:对,这也是另一个关键点。如果芯片制造是瓶颈,那么一个简单的优化方式是:现在AI芯片大概是每平方毫米1瓦功率密度。你可以尝试把它提升到每平方毫米2瓦。虽然性能未必翻倍,可能只提升20%,但这已经很有价值。不过这需要更复杂的冷却方案,比如:更高级的冷板(cold plate)、更复杂的液冷系统,甚至浸没式冷却(immersion cooling)而在太空中,提高这种功率密度会更加困难;但在地球上,这些问题已经基本被解决。而这类优化可以让每一片晶圆产出更多token,哪怕只是提升20%,也是巨大的。
Dwarkesh Patel:这是一个非常大的提升方式。那你说的“每平方毫米”,是指芯片的面积。
Dylan Patel:对,就是芯片的面积(die area)。
Dwarkesh Patel:从直觉上讲,这对太空反而可能更有利,因为功率密度越高,芯片温度越高,而根据Stefan–Boltzmann law,温度越高,散热能力是按四次方增长的。所以如果芯片可以运行在更高温度……
Dylan Patel:不是让芯片更“热”,而是让它更“密”。问题在于:如何把这么高密度区域产生的热量导出去。这就意味着你必须从传统的:风冷、普通液冷,转向更复杂的:高级液冷或浸没式冷却,而这些,在太空中要比在地球上困难得多。
芯片互连架构与模型规模的经济权衡
Dwarkesh Patel:明白了。那也许现在可以解释一下,到底什么是scale-up架构,以及它在NVIDIA、Trainium和TPU这些系统中分别是什么样的。
Dylan Patel:对,我刚才提到过,芯片内部的通信速度是非常快的。同一个机柜里的芯片之间通信也很快,但没那么快。大致来说,近距离通信是TB级别每秒,而距离更远时就会下降到GB级别每秒,甚至是每秒几百GB。如果跨越更远的距离,比如跨州甚至跨全国,那可能就是每秒GB级。所谓的scale-up域,就是一个紧密耦合的范围,在这个范围内,芯片之间可以以每秒数TB的速度通信。
对于NVIDIA来说,以前一个H100服务器里有8张GPU,这8张GPU之间可以以TB/s的速度互相通信。而到了Nvidia Blackwell和VL72这一代,他们实现了“机柜级scale-up”,也就是一个机柜里的72张GPU都可以以TB/s的速度互联。每一代带宽都在翻倍,但更重要的创新是把scale-up域从8扩展到了72。
再看Google,它的scale-up完全不同,一直都是上千规模。在TPU v4时,他们就有大约4000芯片的pod;到了v7,大概是8000到9000芯片。关键在于,这和NVIDIA的方式不一样。Google用的是一种“环面拓扑”,每个芯片只连接6个邻居;而NVIDIA的72张GPU是全互联,任意两张之间都可以直接以TB/s通信。而在Google的系统里,如果TPU 1要和TPU 76通信,就必须经过中间多个芯片跳转,这个过程中会产生资源争用,因为每个TPU只直接连接6个邻居。所以两者在拓扑和带宽上都有取舍:Google的优势是scale-up域非常大,但代价是通信需要跳转;NVIDIA的优势是直接互联,但规模相对更小。
Amazon的做法则是在两者之间,他们试图做更大的scale-up域,一部分使用类似NVIDIA的交换机实现的全互联,一部分又采用类似Google的torus结构。未来几代,这三家公司都在往一种叫“dragonfly拓扑”的方向发展,也就是部分节点是全互联的,部分不是,从而既可以把scale-up扩展到几百甚至上千芯片,同时又减少跨节点通信时的资源争用。
Dwarkesh Patel:我听到一个说法,说过去一段时间参数规模增长变慢、直到最近OpenAI和Anthropic才又开始推出更大的模型,是因为最初的GPT-4其实已经超过一万亿参数,而之后很长时间模型规模没有再接近这个水平。我听到一个理论,说原因是NVIDIA的scale-up域内存容量不够大。具体说法是:如果你有一个5万亿参数的模型,用FP8表示,大概需要5TB存储,再加上KVcache,如果一个batch也是差不多大小,那就需要大约10TB才能跑一次前向推理。而直到GB200和VL72,NVIDIA才有一个scale-up能提供20TB的容量,在那之前都更小。相比之下,Google的TPU pod虽然不是全互联,但单个scale-up内可能有上百TB的容量。所以这是不是解释了为什么参数规模增长变慢?
Dylan Patel:这部分原因确实是容量和带宽,但还有一个因素是:模型越大,部署起来就越慢。比如说,从终端用户角度看推理速度其实没那么重要,真正重要的是强化学习(RL)。从实验室的算力分配来看,大致有几种用途:可以用于推理(也就是直接产生收入),可以用于开发(训练下一代模型),也可以用于研究。在开发阶段,又可以分成预训练和强化学习。
当你问“到底发生了什么”,其实是这样:研究带来的算力效率提升是巨大的,所以你反而会把更多算力投入到研究,而不是开发。因为研究人员在不断提出新想法、测试这些想法、不断推进scaling law的帕累托前沿。我们从经验上看到的是,模型成本每年大约会下降10倍,甚至更多。也就是说,在同样规模下,成本每年都在快速下降;或者说,如果你想达到新的能力边界,成本大致持平甚至更高,但能力在提升。
Dylan Patel:所以你其实不应该把太多资源分配到预训练和强化学习上,反而应该把大部分资源投入到研究上,而中间会有一个类似“开发期”的阶段。如果你预训练了一个5万亿参数的模型,那接下来你就要花大量时间去做强化学习,这里面的问题是:你需要做多少次rollout?对于一个万亿参数模型和一个5万亿参数模型来说,后者的每一次rollout成本是前者的5倍,这意味着如果你想做同样数量的rollout,时间成本会大幅增加。
即便假设大模型的样本效率更高,比如提升2倍,那很好,但这意味着你仍然需要2.5倍的时间去做强化学习,才能让模型变得更聪明。或者换个角度,你可以对小模型做2倍时间的强化学习,这样即便大模型样本效率更高、做了固定数量的rollout,小模型虽然效率低一点,但做了更多rollout,整体还是更快完成。结果就是你更早得到一个更成熟的模型,而且做了更多强化学习。
接下来你可以用这个模型去帮助构建下一代模型,帮助工程师训练,推动各种研究想法。所以这个反馈循环实际上在所有情况下都会偏向小模型——不管你的硬件条件如何。再看Google,它确实部署了目前主流实验室里最大的生产模型,比如Gemini Pro,它的规模比GPT-4、也比Opus更大。这是因为Google的算力体系相对“单极化”,几乎全部基于 TPU;而Anthropic用的是H100、H200、Blackwell、Trainium、不同代的TPU混合体系;OpenAI目前主要是NVIDIA,但也在逐步引入AMD和Trainium。
像Google这样统一的算力体系,可以围绕更大的模型进行优化,并且利用上千芯片的scale-up域加速强化学习,从而让这个反馈循环变快。但从“单点决策”的角度来看,你几乎总是会选择一个更小的模型——更快完成强化学习、更早投入到研究和开发中,从而更快构建下一代模型,并获得更多算力效率提升。
这种复利效应是:我做了一个更小的模型,做了更多RL,更早用于研究和开发,同时在训练本身上消耗的算力更少,从而可以把更多算力投入研究。这种“研究加速研究”的循环会越来越快,可能带来更快的能力跃迁。而这正是所有这些公司想要的——尽可能快的“起飞速度”。
Dwarkesh Patel:好,那我问个更“刺激”的问题。你们SemiAnalysis卖这些数据模型和表格,你总是说,比如六个月前、一年前你们就预测了“内存瓶颈”,现在在说“洁净室瓶颈”,未来还会是“设备瓶颈”。那为什么只有Leopold一个人用你的数据赚了很多钱?其他人都在干嘛?
Dylan Patel:其实有很多人在用各种方式赚钱。Leopold会开玩笑说,他是唯一一个总觉得我给的数字“太低”的客户,其他人几乎都会觉得我们的数字“太高”,而且是反复地这么觉得。比如一些超大规模云厂商会说,某个竞争对手的投入规模被我们高估了,我们就说不是,这就是实际情况。他们一开始会觉得不可能,然后我们要用大量事实和数据去说服他们,有时候要过六个月甚至一年他们才会接受。
我们的客户里,大概60%是产业侧,包括AI实验室、数据中心公司、云厂商、半导体公司,也就是整个AI基础设施供应链;另外40%是对冲基金。我不会具体说客户是谁,但很多人都在用这些数据,关键在于你怎么解读这些数据,以及你如何从中看到更深一层的东西。
我会说Leopold基本上是唯一一个总觉得我低估了的人,当然有时候他也会高估,有时候是我低估。但总体来说,很多人其实都在这么做。你可以去看一些对冲基金的13F持仓,会发现他们确实在布局这些方向。只是问题在于:什么才是最受约束的环节?什么是最超出市场预期的部分?真正的机会就在于利用这些市场中的“信息不对称”。
从某种意义上讲,我们的数据是在让市场变得更有效率,因为我们让底层事实更准确;但很多基金仍然会基于这些信息进行交易。我不认为只有Leopold一个人在做这件事,但他在“AGI起飞”这件事上的信念是最强的。
Dwarkesh Patel:对,但这些投资其实并不是在赌2035年会发生什么。从我们能看到的一些公开回报来看,包括Leopold的案例,这些押注其实是基于过去一年的变化。而过去一年的这些变化,其实是可以通过你们的那些数据模型预测到的。所以本质上更像是在“买下一年的数据判断”。
Dylan Patel:那不只是表格,还有报告、API数据接口,数据量其实很大。不过我明白你的意思。
Dwarkesh Patel:对,我的意思是,这并不是在赌什么“奇点”这种宏大叙事,而是比如——你是否相信“内存瓶颈”这个判断。
Dylan Patel:但一个很简单的点是:只有当你相信AI会大规模爆发时,你才会去下注“内存瓶颈”。内存紧缺的逻辑,很大程度上是基于这样一个判断——至少对于湾区这些关注基础设施的人来说,这是显而易见的:随着上下文长度变长,KVcache会爆炸式增长,因此你需要更多内存。
但你不仅要算这些账,还要非常了解整个供应链,比如有哪些晶圆厂在建设、哪些数据中心在建设、会生产多少芯片等等。所以我们会非常细致地跟踪这些数据。但归根结底,还是需要有人真正“相信这件事会发生”。
比如一年前,如果你告诉别人:内存价格会涨四倍,而智能手机出货量会下降40%,而且会持续一两年,大多数人会觉得你疯了,这不可能发生。但确实有一小部分人相信了,而这些人就去做了内存相关的投资。
当然,我不认为只有Leopold一个人在买内存公司,很多人都在买。他只是仓位配置和策略执行得更好,可能比很多人都更激进——我不评价具体谁赚了多少,但他确实做得很好。同时也有很多人赚到了钱。我现在说话已经变得非常“外交辞令”了。
资本支出的时间差:千亿美金是如何转化为算力的?
Dwarkesh Patel:好吧,这是“我的室友教我半导体”这一期节目。
台积电制程霸权、地缘风险与机器人未来
Dwarkesh Patel:没事没事,挺有意思的。
Dylan Patel:是啊,我现在在当外交官了,平时我可是很“犀利”的。
Dwarkesh Patel:好,那我们最后来点快问快答。关于台积电:如果你说现在N3制程主要会被AI芯片占用,而N2目前主要是Apple在用,那未来AI也会用N2。如果NVIDIA、Amazon、Google愿意出更高价格来抢N2产能,台积电会不会把Apple挤出去?
Dylan Patel:这里的关键问题是芯片设计周期很长,通常超过一年,所以现在已经在做的2nm设计,其实是很早之前就定下来的。更现实的情况是,NVIDIA、Amazon、Google会说:“我们愿意预付资金来锁定产能,你们帮我们扩产。”
台积电可能会从中多赚一点利润,但不会把Apple完全踢出去。他们更可能的做法是:当Apple下单X的时候,会告诉它“你其实只需要Y(比如X-1)”,然后就按这个给你分配产能。那部分被“削减”的弹性空间,Apple就比较被动了。
过去Apple通常会多下单大约10%,然后在一年中再削减10%,因为需求会有季节性和宏观波动。但未来这种空间会被压缩。所以我不认为台积电会直接踢掉Apple,而是Apple在台积电收入中的占比会越来越小,从而影响力下降。台积电甚至可能要求Apple提前一两年预订产能,并预付资本开支,就像现在NVIDIA、Amazon、Google在做的那样。
Dwarkesh Patel:那具体来说,比如N2产能中Apple占多少?未来AI占多少?
Dylan Patel:今年的话,N2产能大部分还是Apple的,AMD会有一小部分,用来尝试AI芯片和CPU芯片。但总体来说,还是Apple为主。到了下一年,Apple的占比会下降到大约一半左右,因为其他厂商开始放量,然后之后会迅速下降,就像当年N3一样。
另外我说的N2也包括A16(N2的一个变体)。随着时间推移,这些先进制程会成为主流。还有一个有意思的点是:过去Apple通常是新制程的首发客户,但在2nm这一代不是了(如果不算华为早年的情况)。现在AMD也在尝试同时推进CPU和GPUchiplet,并通过先进封装整合,这和Apple是同一时间窗口。
这对AMD来说是个很大的风险,因为新制程本身就很难,可能带来延迟,但这是他们为了加速追赶NVIDIA做的押注。再往后看,到了A16节点,第一个大客户甚至都不会是Apple,而是AI。
未来的趋势是:Apple不仅不会再是首发客户,也不会再是最大客户,而是变成一个“普通客户”。随着台积电资本开支持续膨胀,而Apple的业务增长没有同步跟上,它对台积电的重要性会越来越低。同时,由于封装、材料、DRAM、NAND等供应链成本都在上升,而消费市场又没有那么强,Apple也很难把成本完全转嫁给消费者,最终就会陷入一个局面——它不再是台积电像过去那样的“最重要伙伴”了。
Dwarkesh Patel:你觉得,如果华为能用上3nm工艺,它能做出比Rubin更强的AI加速器吗?
Dylan Patel:有可能。华为确实具备这个潜力。它当年也是最早推出7nmAI芯片的公司之一,同时也是最早推出5nm手机芯片的公司之一。比如华为的Ascend AI芯片发布时间,比Google的TPU还早大约两个月,比NVIDIA的产品(大概是A100)也早几个月。
当然,单纯先进制程并不代表一切,它不等于软件能力,也不等于硬件架构设计能力。但华为可能是全球少数在“所有维度都具备能力”的公司之一:它有顶级的软件工程师、有顶级的网络技术(这本来就是它历史上最核心的业务)、也有很强的AI人才。甚至在AI研究层面,它的实力可以说不输甚至在某些方面超过NVIDIA。
更关键的是,华为不仅有这些能力,还拥有NVIDIA所没有的一些条件:比如自有晶圆厂能力(至少在一定程度上)、以及自己的终端市场(可以直接销售AI token或服务)。此外,华为在中国可以吸引到非常顶尖且高度集中的人才,这一点NVIDIA虽然也很强,但集中度没那么高。
所以可以说,如果华为当年没有被限制使用台积电(大约2019年前后的情况),它完全有可能在今天超过NVIDIA。事实上,当时华为已经超过Apple成为台积电最大的客户,而且在网络设备、计算、CPU等多个领域都有很大市场份额。如果没有这些限制,它很可能会继续扩大份额,甚至长期成为台积电最大客户。
Dwarkesh Patel:最后一个有点随机的问题。刚才和Elon的访谈里还有一部分是关于机器人。如果人形机器人比预期更快爆发,比如到2030年已经有几百万台在运行,每台都需要本地算力,这会意味着什么?需要什么样的技术条件?
Dylan Patel:这里面有很多挑战,比如现在大家在机器人上用的VLM、VLA模型都还不够成熟。但有一点很重要:你其实不需要把所有智能都放在机器人本地,这样反而效率更低。
更合理的方式是:把更复杂的规划和长周期决策交给云端的大模型去做。云端可以做高批量处理(batching),效率更高。然后把这些高层指令下发给机器人,机器人本地只负责执行和插值,比如完成具体动作。
举个例子,云端模型可以决定“去拿那个杯子”,而机器人本地的模型负责真正去抓取这个杯子。在抓取过程中,一些实时信息(比如重量、受力等)需要由本地模型来判断和调整。但并不是所有识别都需要在本地完成。
比如识别一个物体是什么,其实可以由云端更强大的模型完成——它甚至可以知道这是某个具体型号的耳机,比如Sony WH-1000XM6。比如云端模型可以告诉机器人:这个头带是软的、重量是多少等等信息,然后机器人本地的模型就不需要那么“聪明”,只需要根据这些输入执行动作就可以了。云端模型甚至可以每秒给它下发一次,或者每秒十次指令,具体取决于动作控制的频率。
很多计算其实都可以放到云端去完成,因为如果全部都在设备端处理,一方面成本更高,另一方面你也无法在本地部署像云端那样大的模型,智能水平会受限。第三点,我们现在处在一个“半导体供给紧张”的世界里,而每一个机器人都需要先进制程芯片——因为机器人对功耗非常敏感,必须要高效低功耗。
这就意味着,本来应该用于AI数据中心的算力和芯片,被分流到了机器人上。如果你真的部署了几百万台人形机器人,那原本的200吉瓦芯片供给就会被进一步稀释。
Dwarkesh Patel:这点特别有意思,因为很多人可能没有意识到未来“智能”在物理层面上会变得多么集中。现在人类是80亿个个体,每个人的算力都在自己头上;但未来即使是机器人,虽然分布在现实世界中执行任务,但它们背后的智能可能是高度中心化的——比如由数据中心里成千上万甚至上百万个实例来统一驱动。不只是知识工作会集中化,连机器人这种物理世界的执行体,背后也可能是集中式的“思考”。
Dylan Patel:Elon Musk其实已经意识到这一点了,这也是为什么他在为芯片供应做多元布局。他和Samsung签了一个大单,在德州生产机器人芯片。
这样做的好处是:一方面实现地缘上的分散,另一方面也是供应链的分散。因为目前大多数AI芯片都在台积电生产,产能高度竞争,而Samsung这边做AI芯片的需求还不算多(除了NVIDIA最近在推进的一些新产品)。
所以他相当于为机器人单独建立了一条不那么拥挤的供应链。否则的话,他要和那些“无限愿意出价”的AI数据中心竞争芯片资源。
Dwarkesh Patel:好的,Dylan,这期真的非常精彩,谢谢你来做客。
Dylan Patel:谢谢邀请,晚上见。
原文:Dylan Patel — The single biggest bottleneck to scaling AI compute
https://www.youtube.com/watch?v=mDG_Hx3BSUE
编译:Qihan Huang,Jiayi Zhang,Jessie Guan

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。


