本論文では、大規模言語モデル(LLM)の推論効率化のための文脈的スパース性(CS)の課題と解決策を提案している。
まず、CSはテキスト要約などの単純な理解タスクでは有効だが、算術推論やコーディングなどの高度な推論タスクでは大幅な性能劣化を引き起こすことを示した。この問題は、より高度に訓練された大規模モデルほど顕著になる。
分析の結果、CSモデルの推論過程は概して正しいが、一部のトークンの誤りが最終的な結果を大きく悪化させていることがわかった。そこで、Siriusと呼ばれる効率的な修正メカニズムを提案した。Siriusは、CSモデルの出力を少数のトークンのみ修正することで、ほぼ元のモデルの性能を回復できる。
Siriusは以下の3つの特徴を持つ:
Siriusの詳細な設計と評価実験の結果、Siriusは6つのモデルと8つの推論タスクで一貫して有効かつ効率的であることが示された。特に、GSM8Kタスクでは、CSモデルの精度を38%から70%まで大幅に改善できた。また、ハードウェア実装でも、オンチップでは20%、オフロードでは35%の推論時間の短縮が達成できた。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yang Zhou, Z... um arxiv.org 09-09-2024
https://arxiv.org/pdf/2409.03856.pdfTiefere Fragen