大規模言語モデルの推論における計算と通信の重複
大規模言語モデルの推論では、トランスフォーマーモデルの構造と複数GPUのテンソル並列化戦略により、計算と通信が順次実行されるため、通信フェーズ中にコンピューティングリソースが大幅に活用されていない。この非効率性を緩和するために、通信プロセス全体を通じてコンピューティング能力を最適化する様々な手法が開発されてきた。本論文では、シーケンスレベルでの計算通信重複を実現する新しい戦略を提案し、30b/70bモデルを使った実験評価で大幅な効率改善を実現した。