핵심 개념
LIBRAは、大規模AIモデルの分散トレーニングに最適化された多次元ネットワークトポロジーを設計するフレームワークである。ワークロードに応じた最適なネットワークリソース配分を行うことで、高性能かつコスト効率的なトレーニング環境を実現する。
초록
本研究では、大規模AIモデルの分散トレーニングにおける通信オーバーヘッドの問題に着目し、多次元ネットワークトポロジーを活用することで、この問題に取り組んでいる。従来の2次元ネットワークでは、個々の次元の物理的な制約から十分な通信帯域を確保することが困難であった。
LIBRAは、ワークロードに応じた最適な帯域幅配分を行うことで、この問題を解決する。具体的には、対象とするDNNモデルのパラレル化手法や通信パターンを分析し、多次元ネットワークの各次元に最適な帯域幅を割り当てる。これにより、通信オーバーヘッドを最小化し、高性能かつコスト効率的なトレーニング環境を実現する。
LIBRAの主な特徴は以下の通り:
- 多次元ネットワークトポロジーの表現方法を定義し、実際のシステムを表現可能
- 分散トレーニングのパフォーマンスモデルを構築し、ネットワーク設計の最適化に活用
- ネットワークコストモデルを組み込み、性能とコストのトレードオフを考慮した最適化が可能
- 複数のワークロードを対象とした最適化にも対応
LIBRAを用いた評価では、大規模AIモデルのトレーニング時間を最大2倍高速化し、性能あたりのコストを最大13倍改善できることを示した。LIBRAは、大規模AIシステムの設計において有用なツールとなることが期待される。
통계
大規模AIモデルの通信量は数GBから数TBに及ぶ
4次元ネットワークを用いることで、MSFT-1Tモデルのトレーニング時間を最大2.5倍高速化可能
3次元ネットワークを用いることで、Turing-NLGモデルのパフォーマンスあたりのコストを最大12.24倍改善可能
인용구
"AI models, especially LLMs, consist of billions to trillions of parameters (i.e., weights) that need to be distributed across NPUs since they cannot fit within the memory of a single device."
"Consequently, communication becomes one of the major bottlenecks in distributed training."
"We believe that a promising approach to enhance the BW per NPU is to (i) explicitly add more network dimensions, and (ii) leverage a mixture of fabric technologies."