Conceptos Básicos
大規模言語モデルの推論では、トランスフォーマーモデルの構造と複数GPUのテンソル並列化戦略により、計算と通信が順次実行されるため、通信フェーズ中にコンピューティングリソースが大幅に活用されていない。この非効率性を緩和するために、通信プロセス全体を通じてコンピューティング能力を最適化する様々な手法が開発されてきた。本論文では、シーケンスレベルでの計算通信重複を実現する新しい戦略を提案し、30b/70bモデルを使った実験評価で大幅な効率改善を実現した。
Resumen
本論文は、大規模言語モデル(LLM)の推論における計算と通信の重複に関する新しい手法を提案している。
LLMの推論では、トランスフォーマーモデルの構造とテンソル並列化により、計算と通信が順次実行されるため、通信フェーズ中にコンピューティングリソースが大幅に活用されていない問題がある。これを解決するため、これまで主に以下の2つの手法が提案されてきた:
- 通信に隣接する行列計算を複数のブロックに分割し、重複を図る手法。ただし、通信時間が行列演算時間を超える場合、完全な重複は実現できない。
- 複数のリクエストを2つのマイクロバッチにグループ化し、これらの間で計算通信の重複を行う手法。リクエストの待ち時間が増加する問題がある。
本論文では、これらの課題を解決するため、「シーケンス内重複(ISO)」と呼ばれる新しい手法を提案している。
ISOでは、1つのリクエストをシーケンスに沿って2つのチャンクに分割し、それぞれのチャンクで計算と通信を重複させる。ただし、注意機構の計算順序を維持する必要がある。
実験評価の結果、4090GPUでは約35%、A800GPUでは約15%の推論時間の短縮が確認された。また、計算と通信のバランスが偏っている場合の最適化手法についても議論している。
Estadísticas
4090 GPUを4枚使った場合、30bモデルで最大48%、70bモデルで最大47%の推論時間短縮を実現した。
4090 GPUを8枚使った場合、30bモデルで最大36%、70bモデルで最大42%の推論時間短縮を実現した。
A800 GPUを4枚使った場合、30bモデルで最大18%、70bモデルで最大10%の推論時間短縮を実現した。
A800 GPUを8枚使った場合、30bモデルで最大25%、70bモデルで最大16%の推論時間短縮を実現した。
Citas
"大規模言語モデル(LLM)の推論では、トランスフォーマーモデルの構造とテンソル並列化により、計算と通信が順次実行されるため、通信フェーズ中にコンピューティングリソースが大幅に活用されていない問題がある。"
"本論文では、シーケンスレベルでの計算通信重複を実現する新しい戦略を提案し、30b/70bモデルを使った実験評価で大幅な効率改善を実現した。"