重磅论文:GPU时代要结束?


关注公众号,点击公众号主页右上角“ · · · ”,设置星标,实时关注旺材芯片最新资讯
过去十多年,英伟达凭借CUDA生态、Tensor Core张量核心与HBM高速显存,牢牢垄断AI训练市场,并在高性能计算(HPC)仿真、建模领域占据绝对主导地位。在这样的行业现状下,提出“AI是否还需要GPU”这一问题,显得十分大胆且颠覆行业认知。但如今CPU架构正在全面借鉴GPU设计思路:普遍搭载混合向量与矩阵运算引擎、支持多精度混合计算,部分高端型号配备HBM高带宽内存、大容量DRAM主存与高速集成互联总线。从架构演进的角度来看,这一疑问其实具备充分的合理性。

近期,拥有36年橡树岭国家实验室科研经验的田纳西大学学者杰克·唐加拉、苏黎世联邦理工学院计算科学实验室(CSCS)AI/ML首席架构师托尔斯滕·赫夫勒,以及日本理研研究所、东京工业大学知名专家松冈聪,联合抛出这一行业核心问题并发布专项研究论证,引发全球高性能计算领域高度关注。
三位专家联合撰写的论文《我们还需要 GPU 吗?基于矩阵增强型 CPU 重新思考人工智能与科学计算》即将正式发布,论文将同步上传至arXiv预印本平台与美国计算机学会(ACM)旗舰期刊,读者可在正式出版前通过专属链接提前阅览。本次行业热议的核心导火索,是本月最新出炉的全球超算Top500榜单:中国全新纯CPU架构超算灵晟(LineShine)成功登顶,成为当前全球AI与高性能计算综合性能最强的超算。nextplatform此前已深度拆解灵晟超算的处理器、内存、互联架构,及其搭载的国产自研LX2 Arm服务器CPU,想要完整读懂三位行业泰斗的核心观点,可先查阅该深度解析内容。
相关阅读:深度解析:纯国产 Arm CPU,7nm 打造全球第一超算!
算力硬件迭代:立足现有设备,重构计算逻辑
本文将结合论文核心观点,结合行业发展背景展开深度解读。该研究重点对标两款顶尖纯CPU超算:日本理研研究所2021年投用的富岳(Fugaku)超算(搭载A64FX处理器),以及去年秋季上线的中国灵晟超算。除此之外,理研研究所2012年投产的经典超算京(K),同样采用纯CPU架构,是早期HPC纯算力路线的代表性产品。富士通为富岳超算完成了从SPARC到Arm的架构迁移,其A64FX处理器、Tofu D高速互联总线的技术细节,此前已有完整行业解析。
鲜为人知的是,日本京超算采用纯CPU方案并非最初规划,而是行业变局下的无奈选择。2008年日本规划该超算项目时,计划联合富士通、日立、NEC三大厂商打造CPU+加速器混合架构:富士通负责核心CPU计算单元,日立提供专业向量加速器,NEC研发多维网格环形互联总线,实现全节点协同运算。但2009年全球经济衰退,日立、NEC无力承担高昂研发制造成本,相继退出项目,最终仅富士通独立完成整机研发。
富士通最终推出搭载超大规格向量运算单元的Venus SPARC64-VIIIfx处理器,并接手完善了NEC前期研发的Tofu互联总线,整体性能跻身全球顶尖水平。最终落地的京超算不仅登顶全球榜首,多数负载场景下的能效比更是遥遥领先。即便后续富岳超算搭载第三代6D网格环形Tofu D互联总线,其综合计算能效依旧未能超越京超算——超算整机规模越大,越难完全释放理论浮点算力。
本次研究专门选取富岳与灵晟超算作为核心对标样本,核心原因在于两款设备能力高度契合当下算力趋势:均可稳定支撑万亿参数生成式AI大模型推理,兼容传统工业仿真、科学建模任务,能够高效调度AI与HPC混合工作负载,适配前沿科研场景。
GPU崛起的底层逻辑:弥补传统CPU算力短板
论文明确指出了GPU成为AI与HPC核心算力的根本原因:早期传统CPU多精度浮点算力不足,即便内置大量运算电路,内存子系统带宽也存在硬性瓶颈,无法满足大规模并行计算需求。而GPU集成海量向量运算单元、高性能张量核心,搭配高速GDDR显存与堆叠式HBM高带宽内存,完美适配AI训练、科学仿真的算力需求,成为行业刚需。
从商业角度来看,CPU厂商长期推行“CPU+独立加速器”的分体售卖模式,而英伟达也顺势拓展业务边界,布局自有CPU产品线,摆脱了单一GPU盈利的模式。但对于HPC科研领域而言,行业始终更倾向于依托集群横向扩展,依靠算力升级的一体化CPU完成全部计算任务,规避异构架构的额外损耗。
CPU全面进化:补齐GPU核心能力,变身超级计算芯片
如今这一行业趋势正在加速落地,主流CPU架构已全面补齐GPU的核心加速能力:Arm架构从2016年开始迭代升级,依托A64FX处理器落地SVE向量扩展,后续通过Armv9系列架构陆续推出SVE2、SME、SME2,完善向量与矩阵双重加速能力;英特尔至强平台迭代升级AVX-512向量单元,并新增AMX矩阵加速单元,成功落地于极光(Aurora)超算等顶级设备。
值得关注的是,IBM的技术布局更早、更全面。Power10、Power11服务器芯片与z16、z17大型主机处理器,早已原生集成成熟矩阵运算单元,商用落地时间远早于Arm与英特尔架构。同时IBM处理器独家支持高精度十进制定点运算,可完美规避浮点舍入误差,适配金融精密计算场景。而AMD霄龙(Epyc)架构虽具备集成矩阵单元的潜力,目前尚未落地商用。
在架构设计上,Arm、英特尔至强将矩阵加速单元嵌入每一颗CPU核心,IBM则采用双路线布局:一是核心内置矩阵单元,二是通过PCIe板卡搭载Spyre独立加速卡,实现超高规格矩阵算力拓展。不过目前IBM不同产品线的矩阵硬件规格尚未统一,下一代Power12处理器有望实现全系硬件归一。
GPU异构模式的先天短板与行业困境
回溯行业发展,2000年代末GPU刚入局HPC领域时,生成式AI尚未兴起,巨型神经网络训练的算力需求尚未爆发。彼时GPU加速超算的采购成本是纯CPU机型的三倍,性能提升幅度仅三倍左右,性价比优势并不明显,唯一亮点是高内存带宽与更低的高精度计算功耗。后续随着HPC软件生态持续完善,GPU相对CPU的性能差距不断拉大,才逐步成为行业主流。
但CPU+GPU的异构架构始终存在难以规避的短板:开发者需要拆分代码,将并行数值运算卸载至GPU,串行逻辑交由CPU处理,软硬件适配成本极高。同时CPU与GPU之间频繁的数据搬运,不仅消耗额外电力,还会增加系统延迟与开发难度。即便当下AI编程助手可简化适配流程,也无法从根源上解决异构架构的固有缺陷。
这也是GPU普及十五年后,全球Top500超算中仍有近半数坚持纯CPU架构的核心原因。纯CPU方案虽峰值算力、极致能效略逊于GPU机型,但无需支付英伟达CUDA生态授权费用,也无需采购昂贵的HBM显存,整体成本更低、开发流程更简洁。
后GPU时代:架构融合而非简单替代
结合灵晟超算与国产LX2处理器的落地成果,三位专家明确强调:GPU并非毫无价值,高密度并行场景下的算力优势依旧不可替代,未来仍将长期存在。行业真正的变革,是CPU架构的全面升级迭代。
搭载SVE/AVX向量单元、SME/AMX矩阵单元,支持HBM内存、多精度浮点与矩阵加速的新型CPU,早已突破传统通用处理器的局限,成为具备加速器级算力的超级芯片。这种架构革新,完美适配AI与科学计算融合的未来趋势。未来科研任务不再是仿真计算与AI训练相互独立,而是集仿真模拟、数据同化、优化迭代、机器学习于一体的紧耦合工作流。
这类混合负载既需要AI的高吞吐张量计算能力,也需要传统HPC的MPI通信、双精度计算、稀疏求解、复杂逻辑控制能力。相比需要频繁跨芯片数据搬运的异构架构,一体化矩阵加速CPU方案,架构更简洁、损耗更低、适配性更强。
依托灵晟超算,行业已清晰验证纯CPU架构的可行性。这款部署于深圳国家超算中心的设备,依靠自研LX2 Arm CPU的专用矩阵单元,完美支撑万亿参数大模型推理与复杂科学计算。目前LX2采用中芯国际7nm工艺,受制程限制,主频仅1.55GHz,整机功耗42.2兆瓦,实测能效比为52.1 GigaFLOPS/W。
若未来升级至台积电3nm先进制程,LX2芯片主频、集成度将大幅提升,实现面积缩小、功耗降低、成本下降。在保持2.74 ExaFLOPS峰值算力不变的前提下,处理器核心数量、整机功耗均可减半,整机功耗有望降至25兆瓦,能效比将突破87 GigaFLOPS/W。这一数据将大幅超越Top500榜单第二名埃尔卡皮坦超算(60.9 GigaFLOPS/W),也优于英伟达Grace+Hopper/H200组合的主流GPU超算能效水平(约70 GigaFLOPS/W)。
行业终局:算力进入多元融合新阶段
从长期发展来看,智能体AI普遍采用的1CPU+1GPU配比模式或将逐步改变。随着CPU原生集成全套矩阵、向量加速能力,行业可打造一体化超级芯片,替代Grace-Hopper、Blackwell、Vera-Rubin等多芯异构封装方案,彻底省去跨芯片数据卸载与搬运的繁琐流程。
算力硬件的迭代远未止步,从2048bit超大向量单元到未来4096bit向量架构,算力吞吐能力仍有巨大提升空间。而行业巨头英伟达早已预判趋势,未来必将在自研Arm服务器CPU中集成同款GPU张量核心,并兼容全套CUDA X软件生态,实现CPU与GPU能力的深度融合。
来源:EETOP
专心 专业 专注



