แนวคิดหลัก
AdaEDLは、大規模言語モデルの推論速度を向上させるための新しいドラフト停止基準であり、ドラフトモデルのエントロピーを使用して現在のトークンの受理率の下限を推定し、従来の手法よりも効率的かつ堅牢であることが示されています。
บทคัดย่อ
AdaEDL: エントロピーベースのトークン受理確率の下限を用いた、大規模言語モデルの投機的デコーディングのための早期ドラフト停止
本論文では、大規模言語モデル(LLM)の推論速度を向上させるための新しい投機的デコーディング手法であるAdaEDL(Adaptive Entropy-based Draft Length)が提案されています。投機的デコーディングは、より効率的なドラフトモデルを使用して候補トークンを生成し、ターゲットモデルで検証することで、LLMの自己回帰的な制約を回避しようとする技術です。
従来の投機的デコーディング手法では、ドラフトの長さが固定されているため、ドラフトモデルの性能が低い場合や、受理されるトークン数のばらつきが大きい場合に、性能が低下する可能性がありました。本研究では、ドラフトの長さを動的に調整することで、この問題を解決することを目的としています。