核心概念
地理的に分散した環境での大規模言語モデル学習において、学習時間の短縮とGPU使用率の向上を実現する新しいシステム、ATLASとBUBBLETEAを提案する。
近年、GPTやLlama、Mistralといった大規模言語モデル(LLM)の登場により、AIは医療、金融、エンターテイメントなど、多くの産業で広く採用されるようになりました。しかし、これらのLLMの学習には、膨大な数のGPUと、それに伴う電力消費、冷却設備、設置スペースといった課題が存在します。
本論文では、地理的に分散したデータセンター(DC)に配置されたGPUを用いて、LLMの学習時間とGPU使用率を向上させる、ATLASとBUBBLETEAという2つのシステムを提案しています。
ATLAS:分散学習のボトルネック解消による高速化
ATLASは、地理的に分散した環境での学習におけるボトルネックを解消することで、学習時間の短縮を実現します。
複数TCP接続の活用: 従来のPyTorchフレームワークでは、ノード間の通信に単一のTCP接続しか使用していなかったため、WAN環境では帯域幅が制限されていました。ATLASは、複数TCP接続を並行して使用することで、WANの帯域幅を最大限に活用し、データ転送の遅延を大幅に削減します。
最適な並列化手法の採用: ATLASは、DC間ではパイプライン並列化(PP)、DC内ではデータ並列化(DP)とテンソル並列化(TP)を組み合わせることで、WAN通信のオーバーヘッドを最小限に抑えながら、効率的な学習を実現します。
パイプライン間の協調動作: 従来の分散学習スケジューラでは、各DPパイプラインは独立して動作し、帯域幅を共有していませんでした。ATLASは、DPパイプライン間でWAN帯域幅を時間的に共有することで、後続のパイプラインステージでのGPUアイドル時間を削減し、学習時間を短縮します。
最適なGPU配置の決定: ATLASは、各DCのGPU数、WANのレイテンシ、モデルのサイズなどを考慮し、学習スループットを最大化する最適なGPU配置を決定するヒューリスティックを提供します。
BUBBLETEA:アイドル時間における推論処理によるGPU使用率向上
ATLASによって学習時間の短縮は実現できますが、フォワードパスとバックワードパス間など、GPUのアイドル時間は依然として存在します。BUBBLETEAは、このアイドル時間を活用して、推論ワークロードのプリフェーズ処理を実行することで、GPU使用率を向上させます。
プリフェーズ処理の分離: BUBBLETEAは、推論要求をプリフェーズとデコードフェーズに分割し、プリフェーズ処理のみをATLASのGPUアイドル時間中に実行します。
パイプライン並列化による効率化: BUBBLETEAは、推論モデルに対してもパイプライン並列化を採用し、複数のGPUでプリフェーズ処理を並行して実行することで、処理の効率化を図ります。
アイドル時間に基づくスケジューリング: BUBBLETEAは、ATLASから提供されるマイクロバッチのスケジュール情報に基づいて、GPUのアイドル時間を特定し、プリフェーズ処理を効率的にスケジュールします。