黄仁勋的“必须做”清单:创造飞轮、绑定客户、主导技术栈



在《Dwarkesh Podcast》4 月 16 日一期播客中,面对主持人围绕竞争壁垒、供应链瓶颈、地缘贸易与战略边界等尖锐议题的连番提问,黄仁勋系统地阐释了支撑 NVIDIA 当下全球地位的核心逻辑。
他不仅回应了关于 Google TPU 等专用芯片的竞争态势,更揭示了 NVIDIA 将全栈可编程的“加速计算平台”置于单一算力竞赛之上的升维思考。针对业界关注的尖端芯片供应链紧张问题,他将其定义为可通过全球协作与前瞻投资解决的短期工程挑战,并分享了 NVIDIA 作为“需求锚点”动员整个产业链的独特角色。在最为敏感的对华销售与是否自建云服务的战略抉择上,黄仁勋则清晰阐述了其“做必须做之事,尽可能少做”的边界哲学,以及对维护全球技术栈统一性与美国长期技术领导力的深层考量。
▍“必须做”与“不必做”的智慧
在科技行业的狂飙年代,我们见多了“赢家通吃”的故事。巨头们热衷于扩张边界,将触角伸向上下游,构建一个看似固若金汤的帝国。但有一家公司,它的掌舵者在近一小时的深度对谈中,反复强调的却是一种近乎“保守”的哲学:“做必须做之事,尽可能少做。”
这句话听起来简单,甚至有些反直觉。当巨大的成功和近乎无限的资源摆在面前时,为何要主动选择“少做”?
关键在于对“必须做”的定义。对 Nvidia 而言,这是一个关于存在价值的根本性问题:什么事情,如果 Nvidia 不去做,那么这个世界上就永远不会有人去做?
答案指向了那些最底层、最艰难、需要长期巨额投入且回报极不确定的领域。CUDA 的诞生与二十年坚持就是一个绝佳例证。在通用计算如日中天的年代,投入重金打造一个全新的并行计算平台,并说服整个行业改变编程习惯,这无异于一场豪赌。大部分时间里,这项业务并不赚钱。
但黄仁勋认为,这是“必须做”的事。因为如果没有人创建一个易用、普适的加速计算平台,那么科学发现、工程模拟乃至后来的 AI 革命,都可能被禁锢在通用 CPU 缓慢的演进速度中。Nvidia 的角色,是去啃最硬的骨头,去搭建那些别人不愿或不能搭建的基础设施。
另一个“必须做”的当代例子是“全栈优化”。当竞争对手谈论芯片的纸面算力时,Nvidia 在谈论如何将芯片、系统、网络、软件乃至算法视为一个整体来协同设计。从 Hopper 到 Blackwell 架构,号称能实现 30 到 50 倍的性能飞跃,这绝非仅仅依靠晶体管微缩就能实现。
真正的魔法来自于架构层面的根本创新,比如大规模 MoE 模型训练方式的革新,比如将计算任务智能地卸载到 NVLink 高速互联网络之中。这要求公司同时是顶级的芯片架构师、系统设计师、网络专家和软件生态构建者。 这种跨层的、极端复杂的协同设计能力,构成了极高的技术壁垒,也正属于“如果 Nvidia 不做,就难以实现”的范畴。
那么,什么又是“不必做”?
最典型的例子,是 Nvidia 明确不涉足云计算服务,即不自建超大规模数据中心与亚马逊、微软、谷歌正面竞争。尽管他们拥有最先进的 AI 芯片,尽管市场上对算力的渴求近乎无限,尽管这看起来是一条诱人的垂直整合之路。
云计算是“如果 Nvidia 不做,也一定会有其他人能做并且能做好的事情”。全球已经有众多实力雄厚的云服务商,他们擅长运营、维护、销售和提供企业级服务。Nvidia 亲自下场,意味着要与最重要的客户和生态伙伴开战,将公司拖入一场完全陌生的消耗战。
“不必做”的智慧,在于清醒的自我定位和强大的战略定力。 Nvidia 选择成为这个庞大生态中的“赋能者”和“军火商”,而非自己组建“军队”。他们通过支持 CoreWeave、Lambda 等新兴 AI 云厂商,来确保生态的多样性和活力,而非追求垄断式的控制。
这种哲学同样体现在投资策略上。面对如火如荼的 AI 创业浪潮,Nvidia 并没有扮演那个“挑选冠军”的裁判角色。黄仁勋坦言,在 OpenAI、Anthropic 等公司早期需要巨额资本换取算力承诺时,Nvidia 错过了投资机会,部分原因在于当时并未完全理解这类公司的资本密集型特性和战略价值。
但他从中得出的教训并非“今后要大力投资”。公司的战略投资更多是广泛地支持生态,确保技术栈的繁荣,而非进行财务投机或绑定某个特定客户。这背后的逻辑依然是:培育整个森林,比精心照料几棵认定的树苗更为重要。
当整个行业都在焦虑如何“打造闭环”时,Nvidia 用一种开放的姿态构建了最坚固的闭环——一个以 CUDA 和其全栈技术为核心的、全球开发者自发形成的、生态系统伙伴深度绑定的价值网络。这个网络的枢纽地位,是通过提供不可替代的价值所赢得的。
这或许能解释,为何在 AI 算力需求爆炸性增长的今天,Nvidia 没有选择囤积居奇。黄仁勋明确表示,公司不会因为供需失衡而随意改变价格或玩弄分配策略。“先下单,先得货”,价格透明,这是一家“军火商”对行业基础规则的尊重。因为真正的商业模式是通过极致的可靠性和信任,成为整个产业扩张进程中无可争议的基石。
回看历史,许多巨头的衰落往往因为做得太多,模糊了焦点,稀释了核心能力。“必须做”与“不必做”的智慧,本质上是一种在无限机会面前的极端自律。它要求领导者深刻理解:公司的核心价值究竟由什么定义?哪些是创造价值的本源,哪些只是价值产生的附带结果?
▍让增长自己转动起来
一家公司的成功或许源于一款爆品,但持续的增长,尤其是指数级的增长,往往需要一个能够自我强化的系统。Nvidia 目前令人瞠目的市场地位,是其内部一个极为高效的“增长飞轮”持续加速的结果。这个飞轮的起点,是一个朴素到极致的价值主张:为客户提供全球最佳的总体拥有成本TCO 和每瓦性能。
在商业世界,最优的性价比永远是王道。当 Blackwell 架构宣称比前代 Hopper 提升数十倍能效时,它传递的信号是:使用 Nvidia 的方案,客户训练和推理 AI 模型的“单次计算成本”和“单次计算能耗”将达到前所未有的低点。对于动辄消耗上亿美元电费的 AI 项目,这直接关乎生死与竞争力。
极致的 TCO 像一个巨大的引力核心,首先吸引并锁定了全球最活跃、最具创造力的开发者群体。 因为对于研究者而言,时间和效率就是一切。一个在 CUDA 上能快速验证的想法,不会为了潜在的、微小的硬件节省而去适配一个陌生且生态贫瘠的新平台。CUDA 的魔力在于,它是一个包含库、工具、社区和无数现成解决方案的完整宇宙。
从 PyTorch、TensorFlow 这样的主流框架,到层出不穷的 AI 创业公司自研的专用框架,几乎都将 CUDA 作为首选和默认的后端。这种生态的丰富性,使得任何新诞生的 AI 模型或算法,都天然“长在” Nvidia 的架构之上。这种“默认选项”的地位,是金钱难以买到的战略优势。
庞大的开发者生态,直接催生了这个飞轮的第二环:无与伦比的安装基数。 数百万计的 GPU 遍布全球的云数据中心、研究实验室和企业机房。从一代前的 A100 到最新的 H200,从数据中心到边缘设备,Nvidia 的产品矩阵覆盖了每一个算力需求场景。
这个安装基数的意义是什么?它意味着确定性。对于任何一家想要将 AI 产品商业化的公司,选择 Nvidia 平台意味着最广泛的技术支持、最丰富的人才储备和最可预测的部署路径。你不必担心你的模型找不到可以运行的硬件,也不必担心需要为不同的硬件维护多套复杂的代码。
于是,飞轮的第三环开始被有力地推动:云服务厂商 CSP 的“必然”采购。 AWS、Azure、Google Cloud 等巨头采购数以十万计的 GPU,首要驱动力是为了满足其平台上无数客户的需求。当全球的 AI 开发者都在基于 CUDA 生态开发时,云厂商要吸引和留住这些客户,就必须提供最丰富、最稳定的 Nvidia GPU 实例。
公司大约 60% 的收入来自几家最大的 CSP,但这些芯片的主要用途,是支持 CSP 的外部客户业务。这揭示了 Nvidia 与 CSP 之间并非简单的供应商-客户关系,而更像是“流量入口”与“基础设施提供商”的共生关系。 CSP 是 Nvidia 接触海量最终用户的渠道,而 Nvidia 的硬件是 CSP 吸引高价值 AI 工作负载的“磁石”。
海量的需求通过 CSP 等渠道汇聚,转化为 Nvidia 实实在在的营收。在技术行业,规模不仅是成本的优势,更是创新的燃料。惊人的营收规模,使得 Nvidia 有能力进行一场“豪赌”式的研发投入。 他们可以同时推进多个前沿架构的研发,可以投资长达数年的基础软件项目,可以组建庞大的工程师团队与每一个重要的 AI 客户进行深度联合优化。
这种投入的直接产出,就是飞轮的第四环:每年一次的架构级性能飞跃。 从 Hopper 到 Blackwell,再到即将到来的 Rubin,Nvidia 保持着令人窒息的迭代节奏。每一次迭代,都是从芯片、互联、内存、封装到系统软件的全栈革新。例如 Blackwell 宣称的巨幅性能提升,主要来自 Moe 模型并行等架构层面的“破坏性创新”,而非晶体管微缩。
性能的再一次巨大飞跃,回过头来,又极大地强化了飞轮第一环的“TCO 优势”。 客户发现,等待新一代产品所能获得的性价比提升,远超过在其他平台上费力优化所能节省的成本。这种“代际差”形成的势能,促使客户持续追随 Nvidia 的更新周期,从而让飞轮获得新一轮的加速动力。
这个飞轮还有一个容易被忽略,但至关重要的“润滑剂”:供应链的全局动员能力。黄仁勋将供应链瓶颈视为“两到三年就能解决”的工程问题,其底气正来源于此。当 Nvidia 能够向台积电、SK 海力士等巨头清晰地展示未来数年确定性的、天文数字般的需求图谱时,就敢于鼓励并承诺合作伙伴进行超前投资、扩建产能。
整个上游供应链愿意为 Nvidia 的愿景下注,是因为他们看到了那个不断加速的飞轮所带来的确定性。 这种确定性,反过来又保障了 Nvidia 能够履行对下游客户的交付承诺,确保了飞轮运转不会因“缺油”而中断。从 CoWoS 先进封装到 HBM 内存,过去几年的每一次紧缺,最终都因这种强大的需求信号而被化解。
所以,Nvidia 的护城河,从来不是某一代 GPU 的晶体管数量或浮点算力。它是一个由“极致 TCO - 开发者生态 - 安装基数 - 云厂商采购 - 天量研发 - 架构飞跃”构成的、环环相扣、自我强化的动力系统。 竞争对手或许能在某个单一环节,比如芯片的峰值算力上逼近甚至超越,但几乎无法复制这个完整的、已经高速运转起来的系统。
这个飞轮的可怕之处在于,它的每一次转动,都让系统更稳固,让后发者的追赶更为艰难。当全球数百万开发者每天的工作都基于 CUDA 生态,当几乎所有重要的 AI 突破都首发于 Nvidia 硬件,当整个产业链的资本开支都围绕其技术路线图进行规划时,它的地位就从一个供应商,演进为整个智能时代的基础设施提供者。
理解了这个飞轮,也就理解了黄仁勋为何在诸多争议面前显得如此从容。因为增长的引擎来自这个内在系统强大而稳定的内驱力。当增长成为一种自然而然的惯性时,公司便可以将注意力集中在更本质的问题上:如何让这个飞轮转得更快、更稳,以及如何将它驱动的能量,输送到更广阔的疆域。
▍用 F1 赛车逻辑,应对四面八方的挑战
如今的 Nvidia 仿佛身处风暴中心。左边,是 Google 的 TPU 在自家后院开花结果,训练出了顶尖的大模型;右边,是亚马逊、微软等云巨头纷纷下注自研 AI 芯片,试图掌握成本与技术的主动权;身后,还有一群雄心勃勃的创业公司,在专用架构上寻找突破口。四面望去,似乎都是潜在的对手。
然而,在黄仁勋的叙述中,感受到的是一种近乎从容的“解题”心态。这种心态源于一套独特的认知框架:将竞争视为不同维度的、可被拆解的具体问题,而非你死我亡的零和游戏。 而解题的核心方法论,被他巧妙地比喻为“F1 赛车”逻辑。
如何理解这个比喻?一辆顶级的 F1 赛车,其设计极为复杂精密,理论极限极高。但一个普通司机坐进去,可能发挥不出它一半的实力。唯有与车队工程师深度配合、经过无数次调校的专业车手,才能将其推向极限,榨取出每一分性能。
Nvidia 的加速计算平台,就是那辆“F1 赛车”。 它的 CUDA 生态、全栈软件和硬件架构,共同构成了一个极端复杂但潜力无穷的系统。大部分客户,即使是顶尖的 AI 实验室,也如同技艺高超的业余车手,能驾驭,但未必能发挥其全部威力。
于是,竞争的第一个维度被转化了。当客户(尤其是大型云厂商和 AI 实验室)产生自研芯片的念头时,其诉求本质是“追求极致的性价比和差异化的能力”。Nvidia 的回应是派出一支最顶尖的“工程师车队”,带着全套诊断和调校工具进驻客户的车库。
他们的工作是深度介入客户的整个 AI 工作流,从模型架构、训练策略到推理部署,进行联合优化。黄仁勋透露,这种深度合作往往能为客户带来 额外的 30% 到 2 倍 的性能提升。对于一个拥有数万张 GPU、电费以亿计的数据中心而言,这直接意味着巨额的利润增长或成本节约。
此刻,竞争关系发生了微妙而根本的转变:Nvidia 从一个可被替换的标准件供应商,变成了客户通往最优效率之路上不可或缺的“共创伙伴”。 自研芯片的庞大工程投入、漫长周期和未知风险,在与 Nvidia 合作所能获得的、立竿见影的巨大性能红利面前,其性价比需要被重新评估。
面对 Google TPU 这类专用加速器的竞争,黄仁勋则使用了“赛道分离”的策略。他不断强调,Nvidia 构建的是“加速计算平台”,而 TPU 是“张量处理单元”。前者是一个面向通用并行计算挑战的、可编程的完整生态;后者是针对特定计算模式(矩阵乘法)高度优化的专用解决方案。
这本质上是“通用平台”与“专用工具”的路线之争。 专用工具在特定任务上可能锋利,但通用平台却孕育着不可预测的创新。黄仁勋指出,AI 的突破性进展,如 Transformer 架构、MoE 模型、扩散模型,每一次都源于算法和计算范式的根本性创新,这恰恰需要 CUDA 这种高灵活性、全栈可编程的环境作为土壤。
比如从 Hopper 到 Blackwell 架构,能效提升据称最高可达 50 倍。如此惊人的进步,主要来自于软件、系统架构和计算方法的协同革命。在一个专用、封闭的架构上,几乎不可能实现这种跨层级的、颠覆式的协同创新。
当被问及供应链瓶颈是否会制约增长时,黄仁勋展现出的是一种“工程学家”的乐观。他将这些瓶颈定义为“两到三年就能解决的工程和制造问题”。其底气在于,Nvidia 已经成为全球半导体需求最确定、最庞大的那个“锚点”。
甚至在最敏感的地缘政治议题上,这套“解题思维”也清晰可见。面对“向中国出售高端芯片是否会威胁美国安全”的尖锐质问,黄仁勋没有陷入“卖或不卖”的二元辩论。
他承认中国已有强大的制造能力、能源储备和人才基础,单纯的技术封锁无法阻止其 AI 产业发展。并提出了核心警告:不合理的极端封锁,唯一确定的结果是迫使中国乃至受其影响的全球市场,建立起一个完全独立于“美国技术栈”之外的、从硬件到软件的全新生态体系。
在他看来,那才是对美国技术领导力的长远威胁。因为那意味着全球开发者将分裂阵营,未来最重要的 AI 创新和标准,可能诞生并优化于另一个生态。因此,真正的竞争不在某一代芯片的运输清单上,而在于“全球开发者的默认选择”和“下一代技术标准的归属权”这场更隐蔽、更深刻的战争之中。
所以,Nvidia 应对挑战的方式是:让赛车的性能领先优势如此巨大,以至于任何对手在考虑自建赛车时都倍感压力;与最优秀的车手(客户)深度绑定,让他们离不开我们的调校服务;同时,定义并拓宽比赛的边界,将竞争从简单的直线加速,引入到复杂地形、耐力赛和车队总冠军的综合较量中。
▍不卖芯片,是美国输掉下一场竞争的开始
科技竞争的表象是产品与市场份额,但其底层是一场关于“技术栈”归属的隐形战争。这远不止于芯片的物理流动。
一种日益强烈的担忧在于,过度的技术管制可能正在制造一个自我实现的预言:它非但无法阻止一个技术体系的独立发展,反而会为其提供最迫切的发展理由和最清晰的目标。当外部供应链变得不确定时,建设一个从底层硬件到顶层应用完全内循环的“平行生态”,就从备选项变成了必选项。
这个平行生态一旦启动,便拥有自身的强大惯性。它意味着独立的指令集、专用的编程框架、定制的系统软件,以及围绕这一切形成的开发者社区与学术研究网络。
业界常用“五层蛋糕”比喻技术栈:芯片、系统、算法框架、模型、应用。健康的领导力要求这五层协同发展并对外辐射影响力。如果为了在“模型”层维持有限的领先窗口,而主动放弃在“芯片”与“系统”层的全球生态与市场,这实质上是一种战略置换,其长期代价可能远超短期收益。
开源运动的历史揭示了生态的粘性。如今,全球重要的开源贡献仍大多基于主流技术栈。但生态分裂的苗头一旦出现,开源的洪流也可能随之分叉。当最重要的开源项目开始优先适配另一个生态时,其引发的连锁反应将重塑整个产业的格局。
因此,动态竞争的核心在于“吸引力”而非“约束力”。关键在于能否持续提供如此显著的开发效率、性能优势与创新机会,使得全球开发者——无论身处何地——基于纯粹的技术与商业理性,仍将首选现有生态作为其创新的基础平台。
这场竞争的本质,是争夺对下一代创新者“默认选择”的定义权。芯片是这种定义的物理载体,而软件生态、开发工具和社区文化则是其灵魂。输出算力,不如输出让算力得以创造价值的“标准方法”。
当前的战略抉择,将决定未来数字世界是走向“一个体系,多种实现”的相对统一,还是“两种体系,各自演进”的根本分岔。后一种情况意味着数字全球化的事实倒退,将带来巨大的效率损失与创新壁垒。
在这场隐形战争中,真正的胜利是让自己定义的技术栈成为世界不愿离开、也无法离开的创新公地。这要求一种超越零和博弈的思维:通过持续的卓越,让自己成为不可替代的基石。 任何促使世界寻找“替代基石”的策略,都需慎之又慎,因为它可能正在帮助对手完成最关键的市场与人才验证。
✦ 最新活动 ✦
















✦ 精选服务 ✦
「新探计划」由有新 Newin 联合探奇资本发起,我们关注 AI 大浪潮中持续解决真实问题的创业团队,为优质项目匹配合适的创业资源,不限于融资、宣传、产品设计以及商业化探索等。

✦ 精选内容 ✦
Kollab 想把 AI 变成团队操作系统,从个人提效到组织复利
前腾讯云架构师打造的“金融龙虾”,用 Agent 打造你的专属基金
EdgeClaw Box:在养虾潮的安全焦虑中,推开 OPC 时代的大门
在 AI 替你干活之前,Violoop 先给它装一个物理刹车
Junior:一个有邮箱、有目标、会主动干活的 AI 同事,正在改变未来职场


