核心概念
小規模言語モデルのサービングでは、単一のアクセラレータ内でパレート最適なスループットを実現できる。
要約
本論文では、小規模言語モデル(SLM)のサービング性能を分析した。
- SLMは大規模言語モデル(LLM)に比べて小さなメモリフットプリントを持つため、単一のアクセラレータ内で大きなバッチサイズを処理できる。
- 実験では、OPTモデルのサイズを125Mから13Bパラメータまで変化させ、スループットとレイテンシのトレードオフを分析した。
- 小規模モデルの場合、単一のアクセラレータ内でパレート最適なスループットに到達できることが分かった。一方、大規模モデルではマルチGPUでの分散処理が必要となる。
- モデルの複製を行うことで、リソース利用効率を高められることを示した。小規模モデルの場合、複製により顕著な性能向上が得られる。
- GPUメトリクスの分析から、大規模モデルではスループットの上限に達した後も消費電力が増加することが分かった。これは、GPUの温度制限によるものと考えられる。
統計
単一のNVIDIA A100 GPUで処理可能なOPTモデルのバッチサイズは、125Mパラメータで512、1.3Bパラメータで256、2.7Bパラメータで128、6.7Bパラメータで64、13Bパラメータで16である。
OPT 125Mと1.3Bでは、バッチサイズ128以降、スループットの向上は限定的で、レイテンシが大幅に悪化する。
OPT 13Bでは、2台から4台のGPUに分散処理しても、スループットの向上が見られる。
引用
"小規模言語モデルのサービングでは、単一のアクセラレータ内でパレート最適なスループットに到達できる"
"モデルの複製を行うことで、リソース利用効率を高められる。特に小規模モデルの場合、複製により顕著な性能向上が得られる"
"大規模モデルではスループットの上限に達した後も消費電力が増加する。これはGPUの温度制限によるものと考えられる"