“小龙虾”太多了,CPU告急

当地时间4月9日,谷歌与英特尔宣布扩大多年期合作,核心内容并非GPU采购,而是多代至强(Xeon)处理器的部署承诺,以及基于定制ASIC的基础设施处理单元(IPU)联合研发。消息一出,英特尔股价当日上涨4.7%,过去五个交易日累计涨幅约为22.5%。
同一天,SemiAnalysis首席分析师Dylan Patel在一场深度访谈中抛出了一个让业界警醒的数据:"过去六个月,整个云市场的CPU都跑光了。"
供给端的情况在恶化。据Omdia报告,全球服务器CPU供应紧张可能导致2026年价格上涨11%至15%。汇丰证券更将2026年全球服务器出货量同比增长预期大幅上调至20%,同时指出受供应链产能限制,真实市场需求可能高达60%。
如果说一年前市场还在争论“AI是否需要CPU”,那么现在的问题已经变成了“CPU不够用怎么办”。这背后,是一场正在发生的结构性变化:AI基础设施的瓶颈,正从GPU向内存和CPU迁移。关于内存对AI基础设施的影响以及市场激烈的反应,大家已经很熟悉了,今天我们来讲讲CPU。
从"问答"到"任务":CPU工作负载的根本转变
理解这个问题的起点,是AI工作负载性质的改变。
在AI发展的头几年,"发一个字符串,回一个字符串",简单的文本生成推理,对CPU的负载确实很轻。行业观察者Dylan Patel回忆:"在AI的头几年,CPU确实严重滞后。负载很轻。你发一个字符串,它回一个字符串,简单的推理,对CPU需求不大。"
但这一局面在过去几个月被彻底打破。
核心驱动力“智能体(Agent,比如各平台的'小龙虾')和强化学习(RL)”的爆发。以OpenAI o1为代表的新一代模型,不再是简单的问答输出,而是开始自主执行任务、调用数据库、自我验证。多步推理、多工具调用、多智能体协作,正在成为AI工作的新形态。
Dylan Patel给出了一组极具冲击力的数据:
代码智能体收入:过去6个月,从几十亿美元暴涨至超过100亿美元
单次任务时长:Claude Code等智能体可连续工作6至8个小时,持续调用数据库、触发各类服务——这意味着持续、高强度的CPU占用
强化学习训练循环:模型每生成一步输出,都需要在CPU集群上进行高频验证,循环越来越紧密
"想象一下未来一两年训练的机器人模型——一个视觉语言模型在世界模型中导航,试图拿起东西、放下东西。每一步都需要被验证,而物理模型跑在某个CPU集群上。那需要的CPU量会多得疯狂。"
数据重新佐证CPU的工作价值
GPU是AI的绝对主角——这个认知根深蒂固。但Georgia Tech与Intel联合发布的研究,正在动摇这个认知。
2025年11月,两家机构联合发布了一篇论文,名为《Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference》。研究的核心发现是:
在智能体AI工作负载中,CPU瓶颈在多GPU推理系统中普遍存在。
具体来说,当企业部署一个多智能体系统(如AI研究助手,需要同时启动子智能体搜索网页、查询数据库、综合文档、编写代码),CPU不再是旁观者,而是实际承担了状态维护、上下文窗口管理(可延伸至数十万token)、工具调用、检索增强生成(RAG)查询、以及结果汇总协调等工作。
GPU——再强大——也在等待CPU喂给它数据、管理KV缓存、分发下一个任务。
研究还发现,即使在采用进程级分离和CUDA Graphs等现代GPU优化的推理框架中,CPU瓶颈依然顽固存在。
需求在激增,供给却跟不上。
Dylan Patel透露了一个细节:OpenAI为了获得CPU算力,直接向亚马逊提出请求——"把你的CPU给我们"。更值得关注的是,OpenAI的代码栈此前几乎只在x86 CPU上运行,但亚马逊拥有大量ARM CPU。据Dylan Patel透露,OpenAI的回应是:"只要能拿到CPU,我愿意把整个栈移植过去。"
工程迁移的代价极高,但算力需求已经紧迫到让企业愿意付出这种代价。
行业数据同样印证了供需紧张:
亚马逊CPU服务器安装量:今年同比增长3倍。
GitHub稳定性:过去数月频繁出现宕机和提交失败。原因是微软将大量闲置CPU分配给了Anthropic和OpenAI。
CPU利润率:正在攀升。Intel和AMD均已发出涨价通知。
芯片交货周期:从正常水平大幅延长,部分型号需要等待数月。
美银(Bank of America)最新预测:全球数据中心CPU市场规模将从2025年的270亿美元,增长至2030年的600亿美元,几乎翻一倍多,且增长几乎全部由智能体AI需求驱动。
Intel CFO David Zinsner在摩根士丹利TMT会议上披露:2025年全年,CPU市场增长20%-30%。
CPU厂商:Intel和AMD的"意外春天"
对Intel而言,这波CPU需求浪潮来得正是时候。
在AI芯片市场,Intel长期处于英伟达的GPU主导格局阴影下。但凭借至强(Xeon)处理器产品线,Intel正在AI推理市场找到新的增长锚点。
2026年3月,Intel发布了至强6处理器(代号Granite Rapids),核心数据亮眼:
核心数最高128个(较上一代翻倍)
L3缓存最高504MB
运行Llama 2 70B大模型,性能提升3.08倍
引入FP16格式的AMX(高级矩阵扩展)加速引擎,专门优化AI推理中最常用的乘累加运算
内存带宽翻倍,支持DDR5 6400MT/s和MRDIMM 8800MT/s
192条PCIe 5.0通道(较上一代提升20%)
每瓦性能提升1.6倍,TCO节省30%
更值得关注的是,英伟达已选定制冷6776P作为DGX B300加速系统的唯一主控CPU——这意味着GPU巨头在自家旗舰系统中,也需要Intel CPU来承担任务调度和数据预处理。
AMD同样受益。EPYC系列处理器在云厂商中的采用率持续提升。但由于台积电产能向AI加速器倾斜,AMD的CPU产能同样面临约束。
Arm也在积极入局。2026年3月,Arm发布了首款面向数据中心的通用处理器AGI CPU,136核,与Meta联合开发。这直接与Intel和AMD的x86架构形成竞争。
云厂商:重新思考"算力配比"
传统的AI集群架构中,CPU与GPU的配比大约是1:100(100兆瓦GPU对应约1兆瓦甚至更少的CPU)。但这个比例正在急剧变化。
Dylan Patel指出:"以前,每个CPU服务器对应很多GPU服务器。但现在这个比例正在变得非常接近,无论是对于RL训练还是推理(智能体推理)。"
这意味着云厂商在规划AI基础设施时,不能再只盯着GPU采购——CPU容量同样需要被纳入核心规划。
定制芯片浪潮:IPU成为新战场
在CPU和GPU之外,“基础设施处理单元(IPU)”正在成为云厂商的新焦点。
IPU专门接管网络流量路由、存储管理、安全加密等"后台任务",将主CPU从这些工作中解放出来,让更多算力留给用户负载。
谷歌与Intel扩大合作的核心内容之一,正是基于定制ASIC的IPU联合研发。谷歌的目标很明确:为自家云数据中心定制专属的IPU,实现更高效的资源调度。
英特尔和谷歌共同宣布扩大多年期的战略合作,对于英特尔来说,在AMD紧逼、ARM渗透的竞争格局下,获得谷歌这样级别的客户背书,无疑是一针强心剂。更重要的是,这份合作向行业释放了一个信号:在AI时代,CPU不是要被替代的旧技术,而是整个基础设施的核心支柱。
当然,这轮价值重估的持续性还取决于几个关键变量。
第一,需求的持续性。 当前CPU需求主要由AI推理和智能体AI驱动。汇丰认为AI驱动的增长红利可能持续至2028年,但推理工作负载能否保持当前增速,将直接影响CPU市场的长期需求曲线。如果智能体AI的普及速度超出预期,CPU需求的增长曲线可能会比当前预测更为陡峭;反之,如果AI推理成本的快速下降导致推理向终端设备迁移,数据中心侧的CPU需求增速也可能放缓。
第二,供应侧的反应速度。 英特尔正在调整产能分配,优先保障数据中心CPU供应,但新产能的释放需要时间。台积电先进制程的产能瓶颈短期内难以缓解,CPU供应紧张的局面可能还会持续一段时间。
第三,竞争格局的演变。 AMD能否在服务器CPU市场进一步扩大份额?ARM阵营的渗透速度是否会超出预期?英特尔能否借助至强6系列扭转份额下滑的趋势?云厂商的自研趋势——谷歌、亚马逊、微软都在积极自研芯片,Counterpoint预测到2029年ARM架构CPU在定制化AI ASIC服务器中的占比至少达90%——会不会削弱传统CPU厂商的市场空间?这些问题的答案将在未来一到两年内逐渐明朗。
从目前的观察来看,英特尔在核心数和制程上的追赶能否转化为市场份额的止跌,是未来两个季度最值得关注的指标。
