Core Concepts
自動回帰型言語モデルの非決定論的な実行時間を解決するため、軽量なプロキシモデルを用いて出力トークン長を予測し、投機的な最短ジョブ優先スケジューラを実現する。
Abstract
本研究では、大規模言語モデル(LLM)を用いた対話型AIアプリケーションの効率的なサービングを実現するため、プロキシモデルに基づくスペキュレーティブな最短ジョブ優先(SSJF)スケジューラを提案している。
LLMは自動回帰的な生成モデルであるため、リクエストの実行時間が非決定論的になる。従来のLLMサービングシステムはFCFS(先着順)スケジューリングを使用しているが、これはヘッドオブラインブロッキングの問題を引き起こす。
本研究では、軽量なプロキシモデル(fine-tuned BERTモデル)を使ってLLM出力トークン長を予測し、その予測結果に基づいてSSJFスケジューラを実現した。SSJFは既存のLLMサービングシステムに直接適用でき、メモリ管理や一括処理の変更を必要としない。
評価の結果、SSJFはFCFSに比べて平均ジョブ完了時間を30.5-39.6%短縮し、スループットを2.2-3.6倍向上させることができた。また、プロキシモデルの予測精度も高く、予測オーバーヘッドは無視できるレベルであることが示された。
Stats
LLMの出力トークン長は、モデルによって大きく異なり、p95/p50の比が1.7から20.5の範囲にある。
出力トークン長は、LLMの実行時間を支配する主要な要因である。
Quotes
"LLMは自動回帰的な生成モデルであるため、リクエストの実行時間が非決定論的になる。"
"従来のLLMサービングシステムはFCFS(先着順)スケジューリングを使用しているが、これはヘッドオブラインブロッキングの問題を引き起こす。"