Alapfogalmak
直接接続トポロジーにおけるオールツーオール集合通信の性能を最適化するための包括的なアプローチを提案する。
Kivonat
本論文では、機械学習(ML)およびハイパフォーマンスコンピューティング(HPC)ワークロードで広く使用されるオールツーオール集合通信プリミティブの性能を最適化するための包括的なアプローチを提案している。
まず、オールツーオール集合通信は、ネットワークの帯域幅を大きく圧迫する非常に困難な課題であることを示す。次に、以下の3つの主要な貢献を行う:
最大同時マルチコモディティフロー(MCF)問題を分解し並列化することで、大規模なネットワークでも高速に最適なスケジュールを生成できるようにする。
追加の転送帯域幅がある/ない両方のファブリックに対して、MCFフレームワークを適用し、スケジュールやルーティングを生成する新しい手法を提案する。
機械学習アクセラレータとHPCランタイムの両方に最適なスケジュールを低減する手法を開発する。
さらに、オールツーオール通信の理論的な下限を導出し、一般化Kautzグラフなどの新しいトポロジーが下限に近い性能を発揮することを示す。
Statisztikák
オールツーオール通信の理論的な下限は、Θ(N log_d N)である。