任杰, 刘畅, 韩博文, 文晨阳, 徐博华, 曹畅
随着ChatGPT引领的大模型与AI产业的爆发式发展,大规模分布式计算成为大模型训练常用模式,对应智算算力需求激增。旨在形成智算中心高性能网络技术体系,推动智算中心高性能网络技术持续发展。针对智算中心高性能网络内关键技术进行技术研究,首先,针对大规模智算业务承载场景,分析了智算中心提供高性能网络在传输协议层面、组网层面、管控运维层面的核心需求。随后依据所述需求,详细研究了智算中心高性能网络不同网络层的演进需求及智算中心高性能网络组网、面向智算中心网络的新型负载均衡协议与拥塞控制协议、新型网络管控及运维等领域的关键技术,对不同场景需求提供技术指导。其次,从网络协议发展与全光网络2个层面展开,分析了智算中心网络的未来导向与发展趋势。若要建立完善智算中心高性能网络技术体系,智算网络自身需提供足够的网络性能,如提供近似无丢包的网络环境、足够的互联能力并解决分布式存储场景下的存储性能瓶颈等;同时智算中心高性能网络的发展需要规范组网方案、高性能的新型负载均衡与拥塞控制协议、新型智慧化管控运维技术等方面关键技术的融合协同,提高运营效率;智算中心高性能网络需提供全局范围内设备与资源感知、分配、调度、运维的网络,并提供高性能无损传输能力。