本論文では、大規模言語モデル(LLM)の訓練時のネットワークトラフィックパターンを分析し、その特性に基づいた新しいネットワーク設計「Rail-only」を提案している。
LLMの訓練では、テンソル並列化、データ並列化、パイプライン並列化が行われるが、その際のネットワークトラフィックは以下のような特徴がある:
このようなトラフィックパターンを踏まえ、従来のフル接続Clos ネットワークではなく、HB domain内の接続のみを保証する「Rail-only」ネットワークを提案している。
この設計により、ネットワーク機器の数を大幅に削減でき、ネットワークコストを38-77%、電力消費を37-75%削減できることを示している。
また、MoEモデルのように全対全通信が必要な場合でも、HB domain内の転送を活用することで、わずか8.2-11.2%のオーバーヘッドで実現できることを示している。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Weiyang Wang... klokken arxiv.org 09-17-2024
https://arxiv.org/pdf/2307.12169.pdfDypere Spørsmål