核心概念
LoongServeは、エラスティックシーケンス並列化(ESP)を採用することで、リクエストの長さや処理フェーズの違いに応じて柔軟にリソースを割り当てることができ、長文コンテキストの大規模言語モデルを効率的に提供する。
摘要
本論文では、長文コンテキストの大規模言語モデル(LLM)を効率的に提供するLoongServeシステムを提案している。
LLMのコンテキストウィンドウが急速に増大しており、リクエストの長さや処理フェーズによってリソース使用量が大きく変動するという課題がある。従来の静的な並列化手法では、このような動的な変動に効率的に対応できない。
そこでLoongServeでは、エラスティックシーケンス並列化(ESP)を提案し、リアルタイムに並列度を動的に調整することで、リクエストの変動に柔軟に対応する。具体的には、以下の3つの機能を実現している:
- 並列度を動的に調整することで、計算効率を向上
- キーバリューキャッシュの移動オーバーヘッドを削減し、部分デコーディングの通信を計算と重複させることで、通信効率を向上
- キーバリューキャッシュの断片化を削減することで、GPUメモリ効率を向上
さらに、LoongServeではスケジューリングアルゴリズムを提案し、リアルタイムに効率的なスケジューリングを行う。
評価の結果、LoongServeは従来手法と比べて最大スループットを最大3.85倍、5.81倍向上させることができた。
统计
入力長が100Kトークンの場合、入力長が1Kトークンの場合と比べて105.97倍遅い
入力長が500Kトークンの場合、GPUメモリ消費量は2.2TBに達する
引用
"The context window of large language models (LLMs) is rapidly increasing, leading to a huge variance in resource usage between different requests as well as between different phases of the same request."
"Restricted by static parallelism strategies, existing LLM serving systems cannot efficiently utilize the underlying resources to serve variable-length requests in different phases."