自研高速网络会成为算力集群的下一战场吗?
界面新闻记者 |
界面新闻编辑 |
文姝琪
在算力集群的规模竞赛迈向十万卡的过程中,围绕高速网络的技术竞赛正在浮出水面。中科曙光近日发布高速网络方案
ScaleFabric
,试图补上国产算力产业链长期缺失的一环。
“网络可靠性是未来的重点。”中科曙光高级副总裁李斌对界面新闻等媒体表示,算卡集群从万卡到十万卡做突破,最核心的技术不是来自于计算节点,而是来自于互联系统,来保证规模扩大后本身效率的可扩展。
这一判断指向了
AI
算力基础设施正在改变的事实:当
GPU
芯片的竞争已经白热化,将数以万计的芯片高效串联、协同的网络能力,正在成为决定算力集群性能的又一关键变量。
一个大规模算力集群的构建分为两层。第一层是纵向扩展(
Scale-up
),在单台服务器或单机柜内集成大量
GPU
及
AI
芯片,通过高速互联形成超级计算节点;第二层是横向扩展(
Scale-out
),通过高速网络将这些节点串联成集群。
在纵向扩展层面,一场围绕超节点卡数的竞赛正在展开。

2026
年
1
月,英伟达发布第六代
NVLink
以及
NVLink Switch
,两者支持最新的
Rubin
架构,目前商用最大支持
72
张
XPU
卡。
国内厂商则推行得相对激进。在中国半导体制造工艺相对落后的背景下,
Scale-up
被视为通过堆叠更多卡数来规避单一芯片性能不足的替代方案。
据界面新闻此前报道
,华为昇腾通过在超节点互联技术上强力投资,发力走“集群规模化”路线,试图凭借这一方向“做到世界上算力最强”,推出了配备
384
张昇腾
AI
加速卡的华为昇腾
384
超节点真机。瞄准类似目标,沐曦推出了连接
64
张曦云
C550
通用
GPU
的超节点产品耀龙
S8000 G2
。中科曙光在
2025
年
12
月也推出了单机柜
640
卡的
scaleX640
超节点。
一名从业人士告诉界面新闻,影响超节点内部的串联效率和协同的主要因素是
Scale-up
协议,互联芯片延迟和带宽;华为昇腾
384
是现在量产的超节点产品中卡数最多的方案,中科曙光的
640
卡方案目前尚未量产。
但无论超节点规模最终稳定在何处,它们共同指向了同一瓶颈:节点内芯片越多,节点之间的网络压力就越大。这也带来了高速互联快速膨胀的市场。李斌表示,相比原来的数据中心高速网络的用量,基本上提高了
10
到
20
倍,“从网络端口就可以看到市场的增量”。
这恰恰是横向扩展——也是
ScaleFabric
所瞄准的市场。在横向扩展中,让大量节点高效协同的核心技术是
RDMA
(远程直接内存访问)。这一技术绕过
CPU
和操作系统,让机器之间直接读写内存,而这带来的低延迟对
AI
大模型的训练和推理至关重要。
实现
RDMA
有两条主流路线。
InfiniBand
原生支持
RDMA
,无需
CPU
参与即可在系统间进行直接内存传输。英伟达在
2019
年以
69
亿美元收购
Mellanox
后,就牢牢把控了这一高性能网络技术市场,凭借其硅芯片设计专业、自研高速互连和网络技术及
CUDA
,形成了一套生态内的闭环。
另一条路线是
RoCE
(融合以太网上的
RDMA
),将
RDMA
功能嫁接到标准以太网上,成本更低、生态更开放,但需要复杂配置才能接近无损效果。
Google
、
Meta
等部分海外科技公司及国内互联网大厂均有所采用。
在
InfiniBand
目前仍是
AI
高性能网络标杆的背景下,中国公司面临的问题是,这条路线的核心供应被一家美国公司垄断。
在这一背景下,中科曙光选择不走被更多国内厂商采用的
RoCE
路线,而是自研一套基于
InfiniBand
技术理念的方案。中科曙光高速网络互联产品部总工程师万伟的解释是,基于在高性能计算的经验,其认为
InfiniBand
的技术路线在
AI
和
HPC
(高性能计算)中有不可替代的优势;作为真正的无损网络,其无损特性对
RDMA
性能的发挥至关重要。
据界面新闻了解,中科曙光此次发布的
ScaleFabric
核心是
InfiniBand
网络的设计思路,可以看作是基于
InfiniBand
技术的一种优化。作为国内首款原生无损
RDMA
高速网络方案,
ScaleFabric
涵盖了从交换芯片、网卡到交换机、驱动与管理软件的完整自研体系。万伟透露,其端到端通信时延的能力上限已做到
0.9
微秒。
在商业策略上,
ScaleFabric
试图在英伟达的技术理念与国产
自主可控
之间找到平衡点。
该系统在定位上对标英伟达
Infiniband
,系统结构保持透明,通过标准
SIP
网络接口支持不同计算芯片的互联与适配。在此基础上,团队正在探索让计算芯片通过专有协议直通网卡,同时推动芯片间互联协议的共享,为与其他厂商的计算芯片实现高效直连铺路。
但曙光并不打算将自己锁定在单一协议上。李斌透露,未来的技术路线将探索不同协议的融合,可能在原生
RDMA
的基础上做不同网络路线的兼容。
ScaleFabric的意义,或许不在于正面超越英伟达,而在于提供一条国产
自主可控
的替代路径。李斌对界面新闻表示,中科曙光期待在InfiniBand的技术路线能实现技术上的国产化替代,包括实现业务上真正的市场占比替代。
但技术指标上的接近,与产业生态的成熟之间,仍隔着一段不短的路程。
北京科技大学高性能计算领域专家储根深对界面新闻表示,国产计算硬件发展总体落后英伟达一到两代,“更难的是上面的生态”。英伟达围绕
InfiniBand
构建了多年的产业生态,并非单靠硬件性能对标就能复制。
ScaleFabric
目前已在位于郑州的国家超算互联网核心节点三万卡智算集群中进行了部署验证,但更大规模的产业化落地仍需时间。从单一集群内的验证到成为市场上被广泛选择的方案,这条突围之路,可能比单纯的芯片研发周期更为漫长。
