Core Concepts
大規模言語モデルの推論速度を損なうことなく大幅に加速する新しいアプローチ「SPACE」を提案する。
Abstract
本研究は、数十億パラメータを持つ大規模言語モデル(LLM)の推論速度を加速することを目的としている。
提案手法「SPACE」は以下の2つの主要な構成要素から成る:
半自己回帰(SAR)微調整スキーム
既存のLLMをSAR型に変換することで、1回の推論で複数のトークンを並列生成できるようにする。
従来の完全自己回帰(AR)モデルに比べ、推論速度を大幅に向上させることができる。
自動修正デコーディングアルゴリズム
同一のLLMを用いて、トークン生成と検証を同時に行うことができる。
補助モデルを必要とせず、実装が簡素化される。
広範な実験の結果、SPACEは既存のLLMに対して2.7倍から4.0倍の推論速度向上を達成しつつ、出力品質を維持することが示された。
また、SPACEはTGIなどの高度な推論最適化手法と組み合わせることで、さらなる加速が可能であることが確認された。
Stats
LLMの推論速度は、従来の自己回帰(AR)方式に比べ、SPACEでは2.7倍から4.0倍の高速化を実現した。
SPACEを適用したLLaMA-2-70Bモデルの推論速度は、TGIと組み合わせることで、LLaMA-2-7Bモデルと同等の性能に達した。
Quotes
"SPACE は、LLMの推論速度を大幅に加速しつつ、出力品質を維持することができる新しいアプローチである。"
"SPACEは、同一のLLMを用いてトークン生成と検証を同時に行うことで、補助モデルを必要とせず、実装を簡素化できる。"