在第八届未来网络发展大会上,中国电信研究院发布了《分布式智算中心无损网络技术白皮书》(以下简称“白皮书”)。白皮书首次明确提出了分布式智算中心无损网络总体架构以及长距无损、超大带宽、超高可靠、弹性敏捷、智慧运维五大技术特征。
该白皮书提出的总体架构及关键技术应用于业界首个百公里、千卡、千亿参数大模型分布式训练现网试验,分布式训练性能达到集中式单智算中心训练性能的95%以上,为建设超大规模智算集群提供新思路。
随着人工智能的浪潮来袭,以大模型为代表的智算中心解决方案逐步深入千行百业,算力需求日益攀升,智算基础设施的重要性进一步凸显,但同时也面临组网、通信、能耗、成本等多重挑战。为解决智算中心单点算力规模建设受限的问题,中国电信提出“以网强算”的技术路线,通过将IP技术与光传输技术的协同创新,将相距百公里的多个智算中心连成一个更大规模的智算集群,补齐单点算力规模不足的差距。
针对跨智算中心构建超大规模智算集群过程中遇到的问题和挑战,白皮书中详细阐述了实现上述目标所需的核心技术,包括网络级负载均衡技术、交换机精准流控技术、异构集合通信优化技术、全流可视化技术、800G C+L传输技术、WSON重路由技术、波长级动态拆建技术、告警根因识别技术等,为分布式智算中心无损网络建设发挥积极的引领和示范效应。
面向未来,中国电信将坚持“以网强算”的技术路线,打造面向智算业务的新型基础设施,以高性能智算网络作为提升集群算力性能的关键抓手,突破智能算力供给瓶颈,在赋能智算基础设施方面发挥更加重要的作用,为经济社会发展注入新的动力。