Core Concepts
大規模言語モデルの推論では、注意機構の計算量が大きいため、KVキャッシングを活用することで高速化できる。しかし、KVテンソルのメモリ使用量が大きくなるという課題がある。本研究では、注意重要度に基づいてスパース性を導入し、動的なスケジューリングを行うことで、リソース制限下でも高速な推論を実現する。
Abstract
本研究では、大規模言語モデル(LLM)の高速推論を実現するためのアルゴリズムとシステム設計を提案している。
アルゴリズム面では、Sparse Window Attention (SWA)を提案する。SWAは、局所的に重要な単語と全体的に重要な単語を組み合わせたスパース注意機構を生成する。これにより、KVテンソルのメモリ使用量を大幅に削減しつつ、精度の劣化を最小限に抑えることができる。
システム面では、3段階のスケジューリングを行う。第1段階ではGPUメモリ内でKVテンソルを完全に保持する。第2段階では、GPUメモリ容量を超えた場合にCPUメモリにも一部保持する。第3段階では、一部のKVテンソルを再計算することで、CPUメモリアクセスのオーバーヘッドを削減する。このダイナミックなスケジューリングにより、リソース制限下でも高スループットな推論を実現する。
さらに、KVテンソルの量子化圧縮も行い、メモリ使用量をさらに削減している。
評価実験の結果、提案手法は既存手法に比べて最大3倍の高スループットを達成できることを示している。大規模言語モデルの高速推論において、アルゴリズムとシステムの協調設計が重要であることが確認できた。
Stats
大規模言語モデルのパラメータ数は数十億から数千億に及ぶ
KVテンソルのサイズは入力系列長に線形に依存し、大規模モデルでは数十GBに達する
KVテンソルのメモリ使用量が推論のボトルネックとなる
Quotes
"LLMsは、数十億から数千億のパラメータを持つ革新的なブレークスルーである。"
"KVキャッシングは、LLM推論の実行時間を大幅に短縮するが、メモリ使用量の増大が主な課題となる。"
"リソース制限下のシステムでは、KVテンソルのオフロードとリロードによる大きな遅延が新たなボトルネックとなる。"