本研究では、大規模言語モデルの推論を高速化するための手法を提案している。
投機的デコーディングの手法を改善し、ターゲットモデルから初期化した多候補トークンツリーを使うことで、トークン受け入れ率を大幅に向上させた。
動的にスライスされたトポロジー対応因果マスクを導入し、多候補生成の際のマスク生成オーバーヘッドを削減した。
低複雑度の決定モデルを使って、早期に生成を停止することで不要な計算を削減した。
これらの手法を組み合わせることで、ベースラインの投機的デコーディングや既存の多候補投機的デコーディングと比べて、最大164%の受け入れ率向上と75%の生成時間短縮を実現した。アブレーション実験の結果、ターゲットモデル初期化の多候補トークンツリーが最も大きな効果を発揮することが示された。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania