大規模言語モデル(LLM)の推論を高速化する投機的デコーディングは、従来の逐次的なトークン生成ではなく、並列処理を用いることで、処理時間とリソース消費を大幅に削減できる。
大規模言語モデル(LLM)の推論速度を向上させるため、テキストコーパスと生成中のテキストの両方から接尾辞オートマトンを用いて効率的に候補単語列を生成する新しい検索ベースの投機的デコーディング手法、SAM-Decodingを提案する。
大規模言語モデル(LLM)の推論速度を向上させるために、SpecHubと呼ばれる新しいサンプリング検証手法が提案されています。この手法は、最適輸送問題をコンパクトな線形計画モデルに簡略化することで、計算の複雑さを軽減し、マルチドラフト投機的デコーディング(MDSD)の効率を高めます。
大規模言語モデルの推論高速化手法である投機的デコーディングは、ドラフトモデルとターゲットモデル間の確率分布の差異によって効率が左右され、出力品質を維持しながら棄却率を最小限に抑えるトレードオフが存在する。
AdaEDLは、大規模言語モデルの推論速度を向上させるための新しいドラフト停止基準であり、ドラフトモデルのエントロピーを使用して現在のトークンの受理率の下限を推定し、従来の手法よりも効率的かつ堅牢であることが示されています。
大規模言語モデルの推論を高速化する投機的デコーディングにおいて、デコーディング温度が性能に大きな影響を与えることを実証し、特に知識蒸留を用いた場合に、学習時と推論時の温度整合が重要であることを示した。