toplogo
Sign In
insight - ディストリビューテッドシステム - # 大規模言語モデルの効率的な分散訓練

大規模言語モデルのトリリオンパラメータ訓練のための低コスト高性能ネットワーク「Rail-only」


Core Concepts
大規模言語モデルの訓練には、従来のフル接続ネットワークは必要ではなく、より低コストで効率的な「Rail-only」ネットワーク設計が可能である。
Abstract

本論文では、大規模言語モデル(LLM)の訓練時のネットワークトラフィックパターンを分析し、その特性に基づいた新しいネットワーク設計「Rail-only」を提案している。

LLMの訓練では、テンソル並列化、データ並列化、パイプライン並列化が行われるが、その際のネットワークトラフィックは以下のような特徴がある:

  • テンソル並列化によるトラフィックは高帯域域内(HB domain)に収まる
  • データ並列化とパイプライン並列化によるトラフィックは HB domain間で発生するが、その量は少ない
  • 99%以上のGPU間では通信がほとんど発生しない

このようなトラフィックパターンを踏まえ、従来のフル接続Clos ネットワークではなく、HB domain内の接続のみを保証する「Rail-only」ネットワークを提案している。
この設計により、ネットワーク機器の数を大幅に削減でき、ネットワークコストを38-77%、電力消費を37-75%削減できることを示している。
また、MoEモデルのように全対全通信が必要な場合でも、HB domain内の転送を活用することで、わずか8.2-11.2%のオーバーヘッドで実現できることを示している。

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Stats
LLMの訓練では、テンソル並列化によるトラフィックが全体の75%以上を占める GPT-1Tモデルの訓練では、HB domain内のトラフィックが約300GB、HB domain間のトラフィックは約6GBと大きな差がある
Quotes
"LLM training generates sparse communication patterns in the network and, therefore, does not require any-to-any full-bisection network to complete efficiently." "Our architecture also supports Mixture-of-Expert (MoE) models with all-to-all communication through forwarding, with only 8.2% to 11.2% completion time overhead for all-to-all traffic."

Deeper Inquiries

LLMの訓練以外のワークロードにおいて、Rail-onlyネットワークはどのような性能を発揮するか?

Rail-onlyネットワークは、LLM(大規模言語モデル)の訓練に特化した設計ですが、その特性は他のワークロードにも応用可能です。特に、Deep Neural Networks(DNN)や他の計算集約型の機械学習モデルにおいて、Rail-onlyネットワークは高い性能を発揮します。これは、Rail-onlyネットワークが高帯域幅の内部接続を維持しつつ、通信パターンのスパース性を活かすことができるためです。具体的には、Rail-onlyネットワークは、同じHB(High-Bandwidth)ドメイン内での通信を最適化し、必要のないNIC(Network Interface Card)ドメインでの通信を削減します。このアプローチにより、他のDNNモデルでも、通信コストを削減し、全体的なトレーニング時間を短縮することが可能です。また、Rail-onlyネットワークは、Mixture-of-Expert(MoE)モデルのような特定の通信パターンを持つワークロードにも対応できるため、さまざまな機械学習タスクにおいて柔軟性を持っています。

Rail-onlyネットワークの耐障害性をさらに高めるための方法はあるか?

Rail-onlyネットワークの耐障害性を高めるためには、いくつかの戦略が考えられます。まず、冗長性を持たせるために、追加のレールスイッチを導入することが有効です。これにより、特定のスイッチやリンクが故障した場合でも、他のスイッチがその役割を果たすことができます。また、光再構成スイッチを使用することで、故障したGPUを迅速に交換することが可能になります。これにより、HBドメインの整合性を維持しつつ、故障したGPUのタスクを他のアイドルGPUに移行することができます。さらに、ネットワーク全体の監視システムを導入し、リアルタイムでの障害検知と自動復旧機能を実装することで、耐障害性を向上させることができます。これらの方法を組み合わせることで、Rail-onlyネットワークの耐障害性を大幅に向上させることが可能です。

Rail-onlyネットワークの設計をさらに最適化し、コストや電力をさらに削減する方法はないか?

Rail-onlyネットワークの設計を最適化し、コストや電力をさらに削減するためには、いくつかのアプローチが考えられます。まず、スイッチの選定において、より高いラディクス(接続ポート数)を持つスイッチを使用することで、必要なスイッチの数を減らし、全体のコストを削減できます。また、スイッチの電力効率を考慮した設計を選ぶことで、電力消費を抑えることが可能です。さらに、ネットワークトポロジーを見直し、スイッチ間の接続を最適化することで、通信の遅延を減少させ、全体の性能を向上させることができます。加えて、ソフトウェアレベルでの最適化を行い、通信パターンをより効率的に管理することで、無駄な通信を削減し、電力消費を抑えることができます。これらの戦略を組み合わせることで、Rail-onlyネットワークのコストと電力消費をさらに削減することが可能です。
5
star