Concepts de base
大規模言語モデルの訓練には、従来のフル接続ネットワークは必要ではなく、より低コストで効率的な「Rail-only」ネットワーク設計が可能である。
Résumé
本論文では、大規模言語モデル(LLM)の訓練時のネットワークトラフィックパターンを分析し、その特性に基づいた新しいネットワーク設計「Rail-only」を提案している。
LLMの訓練では、テンソル並列化、データ並列化、パイプライン並列化が行われるが、その際のネットワークトラフィックは以下のような特徴がある:
- テンソル並列化によるトラフィックは高帯域域内(HB domain)に収まる
- データ並列化とパイプライン並列化によるトラフィックは HB domain間で発生するが、その量は少ない
- 99%以上のGPU間では通信がほとんど発生しない
このようなトラフィックパターンを踏まえ、従来のフル接続Clos ネットワークではなく、HB domain内の接続のみを保証する「Rail-only」ネットワークを提案している。
この設計により、ネットワーク機器の数を大幅に削減でき、ネットワークコストを38-77%、電力消費を37-75%削減できることを示している。
また、MoEモデルのように全対全通信が必要な場合でも、HB domain内の転送を活用することで、わずか8.2-11.2%のオーバーヘッドで実現できることを示している。
Stats
LLMの訓練では、テンソル並列化によるトラフィックが全体の75%以上を占める
GPT-1Tモデルの訓練では、HB domain内のトラフィックが約300GB、HB domain間のトラフィックは約6GBと大きな差がある
Citations
"LLM training generates sparse communication patterns in the network and, therefore, does not require any-to-any full-bisection network to complete efficiently."
"Our architecture also supports Mixture-of-Expert (MoE) models with all-to-all communication through forwarding, with only 8.2% to 11.2% completion time overhead for all-to-all traffic."