本論文は、大規模言語モデル(LLM)の推論効率を向上させるための新しい投機的デコーディング手法「Clover」を提案している。
LLMは自己回帰的なデコーディングを必要とするため、GPUのメモリ帯域幅の制限により低効率になる問題がある。最近提案された投機的デコーディング手法は、複数の出力トークンを同時に生成し検証することで効率を改善したが、訓練時の次トークン予測目的とは異なるため、投機的な出力の精度が低い問題がある。
Cloverは以下の3つの新しい要素を導入することで、この問題を解決している:
回帰的な接続(Regressive Connection): 前に生成された投機的な出力トークンの順序依存性を活用し、現在の投機的な出力の精度を向上させる。
注意デコーダ(Attention Decoder): 前の投機的な出力トークンと入力文全体の情報を統合し、より良い特徴を抽出する。
拡張ブロック(Augmenting Block): 投機的な出力の精度向上のために、入力文全体の情報を活用する。
実験の結果、Cloverは既存手法と比べて、Baichuan-Smallモデルで最大91%、Baichuan-Largeモデルで最大146%の推論スループット向上を達成した。また、Medusa手法と比べて、Baichuan-Smallで最大37%、Baichuan-Largeで最大57%の推論スループット向上を示した。さらに、Cloverは各投機的出力ヘッドの精度も11.7%-26.4%向上させることができた。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Bin Xiao,Chu... om arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00263.pdfDiepere vragen