Conceptos Básicos
大規模言語モデルの推論速度を2-3倍高速化するための投機的デコーディングモデルの設計と訓練
Resumen
本技術レポートでは、大規模言語モデルの生産環境での推論速度を高速化するための新しい投機的デコーディングモデルの設計と訓練について説明する。
- 文脈ベクトルと抽出したトークンの両方を条件とすることで、投機モデルの予測精度を大幅に向上させることができる。
- 2段階の効率的な訓練スキームを導入し、投機モデルを基本モデルの入力と出力に順次合わせていく。
- この投機モデルの訓練パイプラインを使って、4つの高度に最適化された生産環境用の大規模言語モデルを2-3倍高速化することができた。
- 生産環境での投機的デコーディングの限界を探り、ベースラインの計算量と効率が高くなるほど、その恩恵が減少することを示した。
- さらなる改善に向けた次のステップと調査領域を概説した。
Estadísticas
大規模言語モデルLlama2-7Bの単一トークン推論速度は94.9トークン/秒であり、EAGLE実装の55.1トークン/秒と比べて70%高速である。
Llama2-13Bの単一トークン推論速度は170トークン/秒であり、Recurrent Drafterの35.6トークン/秒と比べて170%高速である。
Codellama-13B-instructモデルでは、投機的デコーディングにより3倍の推論速度向上が得られ、181.5トークン/秒を達成した。
Citas
"大規模言語モデルの推論時には、24ギガバイトものオーバーヘッドを発生させて、わずか2バイトの情報しか生成していない。"
"投機的デコーディングでは、低コストで低精度の投機トークンを生成し、GPUの並列性を活用して基本モデルの出力と比較することで、複数のトークンを1回の推論で生成できる。"