重磅论文：GPU时代要结束？

发布时间：2026-07-01来源：旺材芯片

关注公众号，点击公众号主页右上角“ · · · ”，设置星标，实时关注旺材芯片最新资讯

过去十多年，英伟达凭借CUDA生态、Tensor Core张量核心与HBM高速显存，牢牢垄断AI训练市场，并在高性能计算（HPC）仿真、建模领域占据绝对主导地位。在这样的行业现状下，提出“AI是否还需要GPU”这一问题，显得十分大胆且颠覆行业认知。但如今CPU架构正在全面借鉴GPU设计思路：普遍搭载混合向量与矩阵运算引擎、支持多精度混合计算，部分高端型号配备HBM高带宽内存、大容量DRAM主存与高速集成互联总线。从架构演进的角度来看，这一疑问其实具备充分的合理性。

近期，拥有36年橡树岭国家实验室科研经验的田纳西大学学者杰克·唐加拉、苏黎世联邦理工学院计算科学实验室（CSCS）AI/ML首席架构师托尔斯滕·赫夫勒，以及日本理研研究所、东京工业大学知名专家松冈聪，联合抛出这一行业核心问题并发布专项研究论证，引发全球高性能计算领域高度关注。

三位专家联合撰写的论文《我们还需要 GPU 吗？基于矩阵增强型 CPU 重新思考人工智能与科学计算》即将正式发布，论文将同步上传至arXiv预印本平台与美国计算机学会（ACM）旗舰期刊，读者可在正式出版前通过专属链接提前阅览。本次行业热议的核心导火索，是本月最新出炉的全球超算Top500榜单：中国全新纯CPU架构超算灵晟（LineShine）成功登顶，成为当前全球AI与高性能计算综合性能最强的超算。nextplatform此前已深度拆解灵晟超算的处理器、内存、互联架构，及其搭载的国产自研LX2 Arm服务器CPU，想要完整读懂三位行业泰斗的核心观点，可先查阅该深度解析内容。

相关阅读：深度解析：纯国产 Arm CPU，7nm 打造全球第一超算！

算力硬件迭代：立足现有设备，重构计算逻辑

本文将结合论文核心观点，结合行业发展背景展开深度解读。该研究重点对标两款顶尖纯CPU超算：日本理研研究所2021年投用的富岳（Fugaku）超算（搭载A64FX处理器），以及去年秋季上线的中国灵晟超算。除此之外，理研研究所2012年投产的经典超算京（K），同样采用纯CPU架构，是早期HPC纯算力路线的代表性产品。富士通为富岳超算完成了从SPARC到Arm的架构迁移，其A64FX处理器、Tofu D高速互联总线的技术细节，此前已有完整行业解析。

鲜为人知的是，日本京超算采用纯CPU方案并非最初规划，而是行业变局下的无奈选择。2008年日本规划该超算项目时，计划联合富士通、日立、NEC三大厂商打造CPU+加速器混合架构：富士通负责核心CPU计算单元，日立提供专业向量加速器，NEC研发多维网格环形互联总线，实现全节点协同运算。但2009年全球经济衰退，日立、NEC无力承担高昂研发制造成本，相继退出项目，最终仅富士通独立完成整机研发。

富士通最终推出搭载超大规格向量运算单元的Venus SPARC64-VIIIfx处理器，并接手完善了NEC前期研发的Tofu互联总线，整体性能跻身全球顶尖水平。最终落地的京超算不仅登顶全球榜首，多数负载场景下的能效比更是遥遥领先。即便后续富岳超算搭载第三代6D网格环形Tofu D互联总线，其综合计算能效依旧未能超越京超算——超算整机规模越大，越难完全释放理论浮点算力。

本次研究专门选取富岳与灵晟超算作为核心对标样本，核心原因在于两款设备能力高度契合当下算力趋势：均可稳定支撑万亿参数生成式AI大模型推理，兼容传统工业仿真、科学建模任务，能够高效调度AI与HPC混合工作负载，适配前沿科研场景。

GPU崛起的底层逻辑：弥补传统CPU算力短板

论文明确指出了GPU成为AI与HPC核心算力的根本原因：早期传统CPU多精度浮点算力不足，即便内置大量运算电路，内存子系统带宽也存在硬性瓶颈，无法满足大规模并行计算需求。而GPU集成海量向量运算单元、高性能张量核心，搭配高速GDDR显存与堆叠式HBM高带宽内存，完美适配AI训练、科学仿真的算力需求，成为行业刚需。

从商业角度来看，CPU厂商长期推行“CPU+独立加速器”的分体售卖模式，而英伟达也顺势拓展业务边界，布局自有CPU产品线，摆脱了单一GPU盈利的模式。但对于HPC科研领域而言，行业始终更倾向于依托集群横向扩展，依靠算力升级的一体化CPU完成全部计算任务，规避异构架构的额外损耗。

CPU全面进化：补齐GPU核心能力，变身超级计算芯片

如今这一行业趋势正在加速落地，主流CPU架构已全面补齐GPU的核心加速能力：Arm架构从2016年开始迭代升级，依托A64FX处理器落地SVE向量扩展，后续通过Armv9系列架构陆续推出SVE2、SME、SME2，完善向量与矩阵双重加速能力；英特尔至强平台迭代升级AVX-512向量单元，并新增AMX矩阵加速单元，成功落地于极光（Aurora）超算等顶级设备。

值得关注的是，IBM的技术布局更早、更全面。Power10、Power11服务器芯片与z16、z17大型主机处理器，早已原生集成成熟矩阵运算单元，商用落地时间远早于Arm与英特尔架构。同时IBM处理器独家支持高精度十进制定点运算，可完美规避浮点舍入误差，适配金融精密计算场景。而AMD霄龙（Epyc）架构虽具备集成矩阵单元的潜力，目前尚未落地商用。

在架构设计上，Arm、英特尔至强将矩阵加速单元嵌入每一颗CPU核心，IBM则采用双路线布局：一是核心内置矩阵单元，二是通过PCIe板卡搭载Spyre独立加速卡，实现超高规格矩阵算力拓展。不过目前IBM不同产品线的矩阵硬件规格尚未统一，下一代Power12处理器有望实现全系硬件归一。

GPU异构模式的先天短板与行业困境

回溯行业发展，2000年代末GPU刚入局HPC领域时，生成式AI尚未兴起，巨型神经网络训练的算力需求尚未爆发。彼时GPU加速超算的采购成本是纯CPU机型的三倍，性能提升幅度仅三倍左右，性价比优势并不明显，唯一亮点是高内存带宽与更低的高精度计算功耗。后续随着HPC软件生态持续完善，GPU相对CPU的性能差距不断拉大，才逐步成为行业主流。

但CPU+GPU的异构架构始终存在难以规避的短板：开发者需要拆分代码，将并行数值运算卸载至GPU，串行逻辑交由CPU处理，软硬件适配成本极高。同时CPU与GPU之间频繁的数据搬运，不仅消耗额外电力，还会增加系统延迟与开发难度。即便当下AI编程助手可简化适配流程，也无法从根源上解决异构架构的固有缺陷。

这也是GPU普及十五年后，全球Top500超算中仍有近半数坚持纯CPU架构的核心原因。纯CPU方案虽峰值算力、极致能效略逊于GPU机型，但无需支付英伟达CUDA生态授权费用，也无需采购昂贵的HBM显存，整体成本更低、开发流程更简洁。

后GPU时代：架构融合而非简单替代

结合灵晟超算与国产LX2处理器的落地成果，三位专家明确强调：GPU并非毫无价值，高密度并行场景下的算力优势依旧不可替代，未来仍将长期存在。行业真正的变革，是CPU架构的全面升级迭代。

搭载SVE/AVX向量单元、SME/AMX矩阵单元，支持HBM内存、多精度浮点与矩阵加速的新型CPU，早已突破传统通用处理器的局限，成为具备加速器级算力的超级芯片。这种架构革新，完美适配AI与科学计算融合的未来趋势。未来科研任务不再是仿真计算与AI训练相互独立，而是集仿真模拟、数据同化、优化迭代、机器学习于一体的紧耦合工作流。

这类混合负载既需要AI的高吞吐张量计算能力，也需要传统HPC的MPI通信、双精度计算、稀疏求解、复杂逻辑控制能力。相比需要频繁跨芯片数据搬运的异构架构，一体化矩阵加速CPU方案，架构更简洁、损耗更低、适配性更强。

依托灵晟超算，行业已清晰验证纯CPU架构的可行性。这款部署于深圳国家超算中心的设备，依靠自研LX2 Arm CPU的专用矩阵单元，完美支撑万亿参数大模型推理与复杂科学计算。目前LX2采用中芯国际7nm工艺，受制程限制，主频仅1.55GHz，整机功耗42.2兆瓦，实测能效比为52.1 GigaFLOPS/W。

若未来升级至台积电3nm先进制程，LX2芯片主频、集成度将大幅提升，实现面积缩小、功耗降低、成本下降。在保持2.74 ExaFLOPS峰值算力不变的前提下，处理器核心数量、整机功耗均可减半，整机功耗有望降至25兆瓦，能效比将突破87 GigaFLOPS/W。这一数据将大幅超越Top500榜单第二名埃尔卡皮坦超算（60.9 GigaFLOPS/W），也优于英伟达Grace+Hopper/H200组合的主流GPU超算能效水平（约70 GigaFLOPS/W）。

行业终局：算力进入多元融合新阶段

从长期发展来看，智能体AI普遍采用的1CPU+1GPU配比模式或将逐步改变。随着CPU原生集成全套矩阵、向量加速能力，行业可打造一体化超级芯片，替代Grace-Hopper、Blackwell、Vera-Rubin等多芯异构封装方案，彻底省去跨芯片数据卸载与搬运的繁琐流程。

算力硬件的迭代远未止步，从2048bit超大向量单元到未来4096bit向量架构，算力吞吐能力仍有巨大提升空间。而行业巨头英伟达早已预判趋势，未来必将在自研Arm服务器CPU中集成同款GPU张量核心，并兼容全套CUDA X软件生态，实现CPU与GPU能力的深度融合。

来源：EETOP

专心专业专注

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。