Core Concepts
提出了一种自适应且高效的通信调度器NETSTORM,用于加速地理分布式数据中心之间的参数同步。NETSTORM通过建立一个多根最快聚合路径树(FAPT)拓扑,并利用被动网络感知和多路径辅助传输机制来适应动态和异构的网络环境,从而大幅提高参数同步效率。
Abstract
本文提出了NETSTORM,一种用于加速地理分布式数据中心之间参数同步的自适应高效通信调度器。
首先,它建立了一个针对"聚合-转发"模式的有效拓扑度量指标,并提出了一种多根最快聚合路径树(FAPT)同步拓扑,利用多个根服务器来均衡网络负载,最小化总同步延迟。
其次,它开发了一个被动网络感知模块,利用模型参数探测实现轻量级且精确的链路吞吐量测量,支持动态调整同步拓扑以适应网络变化。
为了弥补被动感知的局限性,它引入了一种多路径辅助传输机制,利用拓扑外的空闲链路来分担主传输路径的负载,进一步提高网络感知和并行传输能力。
最后,它实现了一个策略一致性协议,确保在网络变化时拓扑更新的平滑过渡。
实验结果表明,NETSTORM在动态和静态网络条件下均显著优于MXNET、MLNET和TSEngine等分布式训练系统,训练速度提高6.5-9.2倍。
Stats
NETSTORM相比MXNET的训练速度提高6.5-9.2倍。