Kernkonzepte
大規模言語モデル(LLM)の推論を高速化する投機的デコーディングは、従来の逐次的なトークン生成ではなく、並列処理を用いることで、処理時間とリソース消費を大幅に削減できる。
Zusammenfassung
大規模言語モデルにおける効率的な推論手法:投機的デコーディングの調査
本論文は、大規模言語モデル(LLM)の推論を高速化する手法である投機的デコーディングに関する調査論文である。
GPT-3やLaMDAのようなLLMは、高精度なテキスト生成を実現しているが、その推論プロセスは計算コストが非常に高い。従来の自己回帰型デコーディングでは、トークンを逐次的に生成するため、モデルのサイズが大きくなるにつれて処理時間とリソース消費が増大するという問題があった。
投機的デコーディングは、この問題に対処するために、コンピュータアーキテクチャにおける投機実行の概念を応用した手法である。
ドラフトフェーズ
まず、軽量な「ドラフトモデル」を用いて、並列的にテキストの「ドラフト」を生成する。ドラフトは完璧である必要はなく、後続の検証プロセスで修正されることを前提としている。
検証フェーズ
次に、より大きく高精度な「検証モデル」を用いて、ドラフトの各トークンの対数確率を計算し、シーケンス全体の尤度を判定する。モデルの期待値と一致する場合、そのシーケンスは採用され、そうでない場合は棄却される。