华为昇腾系列AI芯片：演进路径、架构、生态和详细参数对比

发布时间：2026-04-08来源：芯东西

透视华为在算力战略下的系统性布局。

作者 | Hardy

华为昇腾910C至970的迭代遵循“三年四代”战略规划（2025-2028），形成清晰的技术跃迁路径，核心围绕“算力密度、场景适配、国产化自主”推进。

01.

产品向“基础夯实、

场景分化、性能跃升”三段式演进

1. 昇腾910C（2025）—— 国产化算力基石

作为第三代昇腾的开篇之作，910C并非全新设计，而是通过双昇腾910B芯片合封（Chiplet技术）实现算力倍增，快速填补国内千亿参数模型训练的算力空白。

面对DeepSeek等开源大模型带来的算力冲击，华为以成熟架构快速迭代，2025年Q1量产落地后，通过Atlas 800T A3超节点实现300+套规模部署，服务20+行业客户，完成 “从可用到好用” 的市场验证。

局限性明显：SIMD单一架构、缺乏低精度优化、依赖外部HBM，难以满足大模型推理细分场景与成本控制需求，为950系列的场景化分化埋下伏笔。

2. 昇腾 950PR/DT（2026）—— 场景化细分突破

首次采用“同核心+差异化配置” 策略，950PR与950DT共享950 Die核心架构，仅通过自研HBM内存（HiBL 1.0/HiZQ 2.0）和软件优化实现场景分化，这是华为芯片迭代从 “大一统” 到 “精准适配” 的关键转变。

引入FP8/FP4低精度格式，FP8算力达1PFLOPS，自研HiF8格式解决“低精度+高保真”矛盾，精度接近FP16；

950PR采用低成本HiBL 1.0内存，定价较竞品低30%，降低推理场景门槛；950PR适配Atlas 350标卡，950DT瞄准超节点服务器，覆盖“边缘推理、云端训练”全链路。

3. 昇腾960/970（2027-2028）—— 超大规模算力跃升

遵循“规格翻倍” 原则，960相比950系列实现算力、内存容量、带宽的全面翻倍，970再翻一番，形成 “每代性能倍增” 的迭代节奏。

960支持自研HiF4格式（业界最优4bit精度），适配千亿参数模型；970以8 PFLOPS（FP4）算力和4TB/s互联带宽，瞄准万亿参数MoE架构，呼应AGI时代的算力需求。

970首次采用N+3工艺，660mm²四Die封装设计，能效比较910C提升 30%，破解 “算力提升伴随功耗激增” 的行业难题。

02.

架构演进：从“单一高效”到

“双模兼容”的生态重构

昇腾系列的架构创新贯穿迭代全程，核心围绕“计算效率、编程兼容性、场景适配性” 三大目标，形成清晰的技术传承与突破脉络：

1. 架构核心突破：SIMD→SIMD/SIMT双编程模型

910C的SIMD架构：专注向量计算效率，适合大规模连续数据处理（如模型训练的矩阵运算），但对碎片化数据（如推理Decode阶段的token生成）支持不足，内存访问颗粒度512字节，离散访问效率较低。

950及后续的双模型创新：

SIMD保留高效向量处理能力，适配“大块数据流水线运算”；

新增SIMT模型，支持灵活调度碎片化数据，内存访问颗粒度缩减至128字节，离散访问效率提升4倍；

双模型无缝切换，实现“训练 + 推理” 全场景高效适配，解决传统AI芯片“训练强推理弱”或“推理强训练弱”的痛点。

2. 生态兼容架构：ASIC+GPGPU双生子设计

950系列起引入“双生子”架构策略：ASIC版本（昇腾Core）深度适配华为CANN生态，最大化硬件效率；GPGPU版本兼容CUDA生态，降低客户迁移成本（尤其针对原英伟达用户）。

这一架构设计并非技术妥协，而是华为“生态开放”战略的体现 —— 配合CANN编译器开源、MindSpore框架开源，形成“硬件兼容 + 软件开放”的双重保障，加速产业落地。

3. 存储互联架构：自研HBM破解“访存瓶颈”

910C的外部HBM依赖：128GB容量、3.2TB/s带宽，虽能满足千亿参数模型需求，但成本高、供应链受限；

950系列的自研HBM突破：HiBL 1.0（成本优化）与 HiZQ 2.0（性能优化）双方案，首次实现HBM国产化自主，950DT的HiZQ 2.0带宽达4TB/s，超越同期业界水平；

960/970的存储跃升：288GB HBM容量+最高14.4TB/s带宽，配合2.2TB/s-4TB/s互联带宽，支持多芯片集群线性扩展，950系列超节点性能可超越英伟达2027年NVL576系统。

03.

芯片间核心关系：

“代际传承+同代互补”的生态协同

五款芯片并非孤立存在，而是形成“基础层、场景层、高端层”的三级协同体系，支撑华为“超节点+集群”的算力战略：

1. 代际传承关系

950-970均延续“达芬奇架构”核心，在计算单元、指令集层面保持兼容性，确保基于910C开发的应用可平滑迁移至新一代芯片，降低生态迁移成本；950的低精度格式（FP8/HiF8）、双编程模型等核心技术，在960/970中进一步优化，仅通过工艺升级、封装扩展实现性能跃升，避免 “推倒重来” 的研发浪费；

从910C的CloudMatrix 384超节点，到950的Atlas 950 SuperCluster（50万卡级），再到960的Atlas 960 SuperCluster（百万卡级），芯片迭代与超节点集群演进同步，形成 “芯片、集群、应用” 的端到端优化。

2. 同代互补关系：950PR与950DT的场景协同

作为同代双芯片，950PR与950DT形成 “推理分工 + 训练互补” 的协同模式。950PR聚焦推理Prefill阶段（长上下文输入处理）和推荐业务（计算密集型），950DT侧重推理Decode阶段（token生成）和训练场景（访存密集型），二者组合可覆盖大模型全流程推理需求；

3. 高低端衔接关系：覆盖全算力需求谱系

入门级：910C作为成熟产品，持续服务政务、金融等通用 AI 场景，提供高性价比的 “训练 + 推理” 一体化解决方案；

中端：950系列聚焦推理细分场景，通过成本优化与性能升级，成为产业规模化落地的核心引擎；

高端：960/970瞄准超大规模模型与AGI研发，打造国产顶尖算力平台，突破海外技术垄断。

04.

迭代战略本质：

以“架构创新”对冲“工艺短板”

华为昇腾系列的迭代逻辑，本质是在半导体制造工艺受限的背景下，通过架构创新、场景分化、生态协同实现算力突围：

SIMD/SIMT双模型、自研HBM、Chiplet封装等架构创新，弥补了N+2/N+3工艺与国际先进工艺的差距，使970的FP4算力（8PFLOPS）接近英伟达Blackwell B300（15PFLOPS）；

放弃“一款芯片通吃所有场景” 的传统思路，通过950系列的场景分化，在推理细分市场形成差异化优势，避免与海外巨头正面竞争；从芯片到框架、编译器、应用套件的全栈开源开放，形成“硬件-软件-应用” 的生态闭环，构建难以复制的产业壁垒。

05.

核心参数总览表

（数据来源：全联接大会 2025 + 行业研报，仅供参考，具体以发布产品参数为准）

06.

关键维度深度解析

1. 算力演进：从 “规模提升” 到 “精度优化”

昇腾910C：作为第三代昇腾开篇之作，以800TFLOPS（FP16）算力奠定基础，采用双昇腾910B芯片合封设计，适配CloudMatrix 384超节点集群，可支撑千亿参数模型训练。

950系列突破：首次引入FP8/FP4低精度格式，算力跃升至1PFLOPS（FP8），华为自研HiF8格式实现“低精度+高保真”平衡，精度接近FP16，解决大模型训练中的算力与精度矛盾。

960/970迭代逻辑：遵循“每代算力翻倍” 原则，970最终实现8PFLOPS（FP4）算力，配合N+3工艺优化，能效比较910C提升30%以上，适配动态稀疏计算与MoE架构。

2. 架构创新：SIMD/SIMT 双模型适配多元场景

910C沿用SIMD架构，专注高效向量计算；950及后续型号新增SIMT编程模型，支持“大块向量流水线处理 + 碎片化数据灵活调度”，内存访问颗粒度从512字节缩减至128字节，离散内存访问效率提升4倍。

同时提供ASIC（昇腾Core）和GPGPU双生子型号，分别适配CANN生态和CUDA兼容生态，降低客户迁移成本。

3. 存储与互联：破解大模型 “访存瓶颈”

950系列首次采用华为自研HBM方案，950PR的HiBL 1.0侧重成本控制，950DT的HiZQ 2.0强化带宽（4TB/s），适配训练场景的高访存需求；960/970通过容量翻倍（288GB）和带宽飙升（最高14.4TB/s），彻底解决万亿参数模型的内存限制。

从910C的784GB/s到970的4TB/s，互联带宽提升5倍，支持多芯片集群线性扩展，950系列超节点可超越英伟达2027年NVL576系统性能。

4. 场景分化：精准匹配不同AI业务需求

昇腾910C：通用性强，覆盖“训练 + 推理” 全场景，当前已广泛应用于政务、金融等行业的AI基础设施建设。

950PR/DT分工：PR聚焦推理Prefill阶段（如视频推荐、实时交互），DT侧重推理Decode阶段（如对话生成）和训练任务，通过差异化内存配置（128GB vs 144GB）适配不同访存需求。

960/970：瞄准超大规模场景，960支持288GB超大内存，适配千亿参数模型；970以4TB/s互联带宽和8PFLOPS算力，成为MoE等下一代AI架构的核心支撑。

07.

技术亮点与行业意义

全栈优化：从芯片（昇腾）、框架（MindSpore）、算子库（CANN）、应用（ModelArts），形成端到端优化，950系列向量算力占比提升30%，任务调度延迟降低50%。

国产化突破：N+2/N+3工艺自主可控，HBM内存摆脱对外依赖，HiBL/HiZQ系列自研存储技术填补国内空白，互联架构打破英伟达 NVLink 垄断。

成本优势：950PR定价约10万元/卡（重点客户8万元），较同性能竞品低30%；960/970通过多Die封装提升良率，进一步降低大规模部署成本。

综上，昇腾910C-970的迭代并非简单的性能堆砌，而是华为在算力战略下的系统性布局：以910C奠定基础，以950系列实现场景突破，以960/970冲刺顶尖算力，最终形成覆盖全场景、全算力等级的国产AI芯片生态，为中国人工智能产业的可持续发展提供核心支撑。