大規模言語モデルの推論では、注意機構の計算量が大きいため、KVキャッシングを活用することで高速化できる。しかし、KVテンソルのメモリ使用量が大きくなるという課題がある。本研究では、注意重要度に基づいてスパース性を導入し、動的なスケジューリングを行うことで、リソース制限下でも高速な推論を実現する。
大規模言語モデルの推論速度を損なうことなく大幅に加速する新しいアプローチ「SPACE」を提案する。
Chimerは、以前生成されたトークンを活用して次の単語を予測する軽量なドラフトモデルを提案することで、大規模言語モデルの推論を高速化する。
BASS (Batched Attention-optimized Speculative Sampling)は、大規模言語モデルの推論を高速化し、GPU利用率を大幅に向上させる新しいシステムである。
LayerSkipは、大規模言語モデルの推論を高速化するエンドツーエンドソリューションである。訓練時にレイヤードロップアウトと早期終了損失を適用し、推論時に早期終了と自己投機的デコーディングを行うことで、精度の低下を最小限に抑えつつ大幅な高速化を実現する。
Kangarooは、大規模言語モデルの推論を高速化するための新しい自己投機的デコーディングフレームワークである。Kangarooは、大規模言語モデルの固定された浅い部分ネットワークを自己ドラフトモデルとして使用し、効率的なアダプタネットワークを追加することで、パラメータ数を大幅に削減しつつ高い性能を実現する。さらに、ドラフト生成時の早期終了メカニズムを導入することで、より難しいトークンに対する不要な計算コストを削減している。
自己適応型推測デコーディングは、入力コンテキストに応じて動的に生成されたドラフトモデルを使用することで、大規模言語モデルの推論を高速化する。