Core Concepts
大規模な深層ニューラルネットワークモデルの訓練における通信最適化の重要性と未来への展望を探る。
Abstract
大規模な深層ニューラルネットワークモデルの訓練には分散トレーニングが必要。
通信時間が全体の訓練時間に占める割合が増加しており、通信最適化が急務。
現在の3層パラダイム(並列化戦略、集合通信ライブラリ、ネットワーク)を概説し、新たな5層パラダイムへの展望を提案。
最新の研究進歩や各コンポーネント(並列化戦略、CCL、ネットワーク)における課題や解決策を紹介。
分散トレーニングアーキテクチャ
大規模な深層ニューラルネットワークモデルの訓練システム全体像を示す。
並列化戦略、集合通信ライブラリ、そしてネットワークといった重要コンポーネントを詳細に紹介。
一般的な並列化戦略
データ並列化、パイプライン並列化、テンソル並列化など4つの一般的な戦略を紹介。
各戦略が通信効率に及ぼす影響や最新手法(PTD-P, AlpaComm, Lina)について解説。
集合通信ライブラリ(CCL)
NVIDIA Collective Communication Library(NCCL)やその他最新手法(Blink, SCCL, TACCL)による効率的な通信プリミティブアルゴリズム生成方法を紹介。
ネットワーク
分散トレーニングで使用される内部/外部通信プロトコルやトポロジーについて解説。
現在の技術や将来展望(TopoOpt, ATP)も含めて議論。
協力デザインと未来への展望
現在の研究では各コンポーネントごとの最適化が中心だが、「垂直」「水平」「内部・外部」「エンド・ネット」共同設計へ向けた可能性と重要性を探求。
Stats
"GPU1台でGPT-3(1750億パラメータ)を訓練する場合は約288年かかる"
"DNN訓練反復時間では60%が通信タスクに費やされている"
Quotes
"Efficient large-scale language model training on GPU clusters using megatron-lm." - D. Narayanan et al.
"On optimizing the communication of model parallelism." - Y. Zhuang et al.
"Megatron-lm: Training multi-billion parameter language models using model parallelism." - M. Shoeybi et al.