邬贺铨院士:智能体时代光网络
在今日举行的中国光网络研讨会上,中国工程院院士邬贺铨发表《智能体时代的光网络》主题演讲,阐述了大模型智能体爆发对数字基础设施提出的全新挑战,并重点聚焦入算网络、算内互联与算间互联三大核心层级的技术演进路径。
他指出,随着大模型智能体(Agent)从概念走向规模化应用,不仅显著增加Token调用量,同时推动算力持续走高。据预测,2030年全球IP流量年增60%~90%,流量中AI占比超过60%,这类流量对丢包与时延高度敏感,传统IP网络难以满足需求。

邬贺铨认为,从成本看超算不宜做智算,智算不宜做通算;从性能看通算不胜任智算,智算精度不足无法承担超算。为此,当前互联技术按层级分层选型:卡间互联优选CPO、LPO、OCS技术,机间互联优选Spine-Leaf互联,800G/1.6T可插拔光模块(OSFP)、硅光集成、DWDM+OTN;算间互联则优选DWDM+OTN,相干硅光高速光模块,广域RoCEv2+全域无损调度,光电路交换OCS,算力路由协议、SRv6算力切片等。
入算网络是用户侧数据进入智算中心的通道。随着智能体7×24小时运行及B端企业日均百万至亿级Token消耗成为常态,传统上行窄带已成为瓶颈,且不同场景对时延和数据隐私的要求差异巨大。
针对中小企业及高端个人用户的本地接入,对称50G PON技术成为主流方案。
对于实时性要求高的业务,2000km往返约20ms的基础物理时延叠加处理后普遍超过25ms,难以满足<20ms的实时业务需求。针对上述挑战,主要采取以下应对措施:
一是区分业务类型。能接受30~100毫秒延迟的,可以远程处理。二是架构优化:在东部做意图识别、轻量化预处理,仅把核心算力诉求传到西部,缩减交互数据量,同时缓存预热常驻模型,无需每次远距拉取模型文件。三是用更好的网络技术:重要业务路由选空芯光纤,时延可降低约30%;FC-NVMe用FC无损承载NVMe本地SSD高速接口,将设备+协议延迟压至1毫秒以下;若追求成本与短距,则选RoCEv2。
邬贺铨介绍,算内网络正向全光扁平架构演进,叶脊结构支撑千卡以上GPU集群。系统速率从400G迈向2026年的1.6T、2028年的3.2T。
模块从可插拔800G为主过渡到2026年的近封装(NPO)和共封装(CPO),后者功耗降50%、密度升10倍;2028年后有望引入全光交换(OCS),实现纳秒级时延。
光纤方面,超低损单模用于长距,多芯光纤提升布线密度,空芯光纤衰减更低、时延减少30%,虽成本高,但节省的微秒级时延可提升算力利用率2%–5%,大智算中心算力收益足以覆盖其溢价。
RDMA(远程直接内存访问)是提升算内网络性能的关键技术。相比传统TCP/IP,RDMA通过专用网卡硬件卸载,数据直接在应用内存与网卡间直传,无中间拷贝,显著降低时延。但为防止丢包,需配合ECN、PFC两种拥塞控制机制。
目前RDMA主要适用于交换机内部及局域网环境。其中RoCEv2支持路由扩展,可在数据中心提供微秒级延迟和极致带宽,但因依赖底层以太网性能,尚不适用于不具备底层以太网性能的广域网。
邬贺铨指出,随着算力需求越来越大,卡间/机间互联需要光电融合突破通信瓶颈,算内网络成为光通信产业发展新机遇。
算间互联分为域内(10km内)和广域(上千公里)。域内可通过专用光纤承载RoCEv2解决;广域虽有需求,但面临严峻挑战。
首先是零丢包要求极高,1%丢包即可致RoCEv2吞吐归零,而传统广域网无法满足;二是时延敏感,长距离导致ACK回复慢、缓存占满,600公里时吞吐可从100G骤降至10G;三是拥塞控制滞后,RTT达数十毫秒,流控指令降速前链路可能已堵死;四是ECMP哈希算法失效,易将多条大流分配到同一链路,加剧拥塞。
针对广域互联的时延难题,可通过拥塞控制机制和负载均衡方法来应对。
在拥塞控制方面,可通过长距PFC+IPCN(智能主动拥塞通知)、HPCC(高精度端侧拥塞控制)、RRCC(参考速率拥塞控制)、TC-SACK(计时计数双维度选择重传)等方式应对。此外,还可通过部署边缘流量整形,避免突发冲击,并划分独立缓存分区防止低优流量堵塞高优业务。
在负载均衡方面,改用更精细的策略:负载均衡改用全局调度,由控制器实时感知全网状态,为每条流量锁定无拥塞最优路径;用精细分流替代传统哈希,把大象流拆小、动态分到多条路,并结合端口分组+接口ID Hash+智能编排,动态调权重,达成无损均衡。
为优化广域互联,光网络底层传输协议正从L3到L1逐层适配AI需求,整体目标是构建“智能光网络 + 开放可编程光层 + 数字孪生仿真 + 物理/IP层协同”的底座。
据介绍,上述技术已在多个国家级示范工程中落地验证。以“京数西算”为例:北京利用西宁算力进行数据加密训练和实时性非敏感的推理,既满足数据安全要求,又利用绿电优势降本约30%。典型应用场景包括政务大模型、城市仿真、科研AI等。
在跨域协同上,“边传边算、分段接力”成为主流。以哈密—深圳4000km专线为例:通过定制拥塞控制技术(URDMA/OTN-RDMA)主动预判+逐跳波长级流控+骨干节点超大缓存,成功将丢包率压至10⁻⁵以下,训练效率超90%;在上海—济南1500km链路上,结合RoCEv2+AINET+SRv6动态调整通信与计算节奏等,效率达95%以上。
在算电协同方面,中国电信800km 400G骨干专线项目中,福建依托低价风电/光伏部署AI计算中心,承接上海迁移任务;上海电力60kW推理任务迁移后降低80%负荷;结合BBRv3+ECN+DCTCP,保障跨省密文数据高吞吐、低时延传输。
面对智能体时代流量结构的剧变,网络与算力的关系正走向深度融合。通过光、IP、管控、业务四层深度协同,将传统网络从单纯的传输管道升级为能按需分配、智能调度的“算力延伸底座”。
最后,邬贺铨总结道,光网络技术的发展带动了链路层、网络层和传送层技术的创新,通信网络技术体系正随AI实现代际跃迁。

