模速WOW时刻 | 无问芯穹 × 中国电信联合完成300亿参数大模型超4000公里跨域混训技术验证

近日,模速空间入驻企业无问芯穹携手中国电信研究院、中国电信广东分公司及中国电信新疆分公司,依托无问芯穹跨域混训核心技术与中国电信全新推出的弹性大带宽 “算力快线” 产品,在现网环境下成功完成国内首例实际传输距离超 4000 公里的大模型跨域混训技术验证,圆满落地从哈密训练集群至深圳推理集群的跨域训练任务,实现 300 亿参数模型的高效、稳定训练,为大模型跨域算力协同落地树立行业标杆。
01 跨域协同突破:4000 公里链路高效完成核心训练任务
本次技术验证聚焦大模型跨域训练的核心痛点,依托无问芯穹成熟的跨域混训技术体系,与中国电信 “算力快线” 的网络能力深度融合,在真实现网条件下完成全流程测试。验证任务以哈密训练集群为算力源头,深圳推理集群为协同节点,跨越超 4000 公里地理距离,成功实现 300 亿参数大模型的端到端跨域训练,全程无中断、无数据丢失,充分验证了远距离跨域算力协同的可行性与稳定性,打破了大模型训练对单一地域算力资源的依赖,为全国一体化算力调度提供了可复制的实践样本。

02 无问芯穹技术攻坚:攻克长距离通信瓶颈,实现训练效率与利用率双提升
作为国际领先的 AI 原生基础设施企业,无问芯穹凭借长期在异构算力与跨域协同领域的技术积淀,联合天翼云开展核心技术攻关,为本次跨域混训提供计算通信重叠优化、多对一网络拥塞优化等核心技术支撑。
在计算通信重叠优化方面,无问芯穹针对长距离跨域场景中通信延迟高、数据传输耗时久的核心痛点,创新采用了计算与通信并行执行策略,有效掩盖通信开销,最大化利用训练周期内的有效计算资源,通信掩盖率达到78.04%,性能损失控制在行业领先水平;在多对点网络通信优化方面,无问芯穹构建了多对节点点对点通信架构,实现训练集群与推理集群间的流量智能调度,动态优化数据传输路径,避免网络拥塞,保障跨域数据同步的实时性与稳定性;最后,通过分布式并行策略与负载均衡算法,充分释放集群算力潜力,为 300 亿参数模型的大规模训练提供坚实技术保障。
无问芯穹将会在不久之后推出专章技术报告,分享在混训实践中积累的经验和更多技术细节。
03 中国电信 “算力快线”:打造跨域算力网络的高速通道
中国电信全新推出的 “算力快线” 产品,为本次 4000 公里跨域混训构筑了高带宽、高弹性、高可靠的网络底座。在实际跨域任务中,1TB训练数据从哈密训练集群至深圳推理集群0.5h传输完成,相比于传统的硬盘寄送,大幅度提升了训练效率。
在网络能力调用方面,依托“算力快线”开放的标准化API接口,可实现跨域网络资源的一键式开通、智能编排与动态调度,支持设备即插即用、任务式组网及带宽秒级弹性调整,大幅提升网络部署效率。在智能化网络服务供给上,“算力快线”不仅支持任务式快速开通,还提供夜间闲时带宽预约功能,满足大模型训练不同阶段的差异化需求。同时周期性开展业务质量测试,在网络意外中断时自动执行修复策略,确保业务稳定运行。此外,灵活的资源管理模式支持算力与带宽资源按需申请与释放,避免资源浪费;并创新采用“传输量 + 使用时长/次数”为核心的计费模式,降低企业跨域算力使用成本,推动算力资源的普惠化应用。
04 无问芯穹 × 中国电信,以技术协同构筑AI新基建
未来,无问芯穹与中国电信将继续深化合作,优化技术方案、拓展应用场景,将新疆、青海等西部地区的绿电优势与广东、上海等东部地区的人工智能算力需求高效联动,实现“西部算力+东部应用”的高效联动。双方将持续助力构建全国一体化算力体系,为打造国家人工智能新基建、推动数字经济高质量发展提供有力支撑,展现基础设施创新升级的行业示范效应。
来源:无问芯穹

