Core Concepts
分散LLMサービングの課題を解決するためのD´ejaVuシステムの提案と効果的なKVキャッシュストリーミングライブラリ(D´ejaVuLib)の重要性。
Abstract
論文では、大規模な言語モデル(LLM)のサービングにおける3つの主要な課題を特定し、それらに対処するためのD´ej`aVuシステムが提案されています。具体的には、プロンプトとトークン処理を効率的に分離し、GPUメモリ管理を最適化し、障害耐性を向上させる方法が示されています。これにより、既存のLLMサービスシステムよりも高いスループットや低いレイテンシが実現されます。
Stats
OPT-13B、OPT-66B、BLOOM-176BなどのモデルにおけるGPUメモリ使用量が示されている。
D´ej`aVuはFasterTransformerと比較してLLMサービングスループットを最大2倍向上させることが示されている。
D´ej`aVuは非耐障害型システムと比較してマイクロバッチレイテンシを1.54倍短縮することが示されている。
Quotes
"Prompt processing time can be more than an order of magnitude higher than per-token generation time."
"Swapping reduces the amount of GPU memory required for the KV cache, allowing larger batch sizes, and increasing system throughput."
"D´ej`aVu addresses this issue by allocating separate pipelines for prompt and token processing."