Core Concepts
Chimerは、以前生成されたトークンを活用して次の単語を予測する軽量なドラフトモデルを提案することで、大規模言語モデルの推論を高速化する。
Abstract
本論文は、大規模言語モデル(LLM)の推論を高速化するための新しい手法「Chimera」を提案している。LLMの推論は計算リソースを大量に消費するため、その適用が制限されている。
Chimerは、以下の2つの戦略を用いた軽量なドラフトモデルを提案することで、この課題に取り組んでいる:
下位層でショートレンジの依存関係をキャプチャする。これにより、入力シーケンスの長さに依存する計算量を削減できる。
元のLLMから得られる表現を活用する。LLMは文脈全体の長距離依存関係をうまくエンコードしているため、これを活用することで、軽量なモデルでも長距離依存関係をモデル化できる。
さらに、複数のリジデュアルデコーディングヘッドを用いて、異なるオフセットの単語を並列に生成する。
実験の結果、Chimerは、Vicuna-7BやVicuna-13Bなどの大規模言語モデルの推論を平均2.7倍高速化できることが示された。これは、MedusaやLookaheadなどの既存手法を上回る性能である。
Stats
大規模言語モデルの推論時間を平均2.7倍高速化できる
Vicuna-33Bでは最大2.91倍の高速化を達成
Quotes
"To enhance the accuracy of the draft model without significantly compromising speed, we propose a lightweight draft model that efficiently leverages all previously generated tokens to predict the next word."
"The experimental results show that our method can accelerate the vicuna-7b and vicuna-13b by 2.7x."