本研究では、検索ベースの推測デコーディング(REST)を提案している。RETSは、言語モデルの生成を高速化するための新しいアルゴリズムである。
従来の推測デコーディング手法は、小規模な言語モデルを使ってドラフトトークンを生成していたが、そのモデルの構築が難しい課題があった。RETSでは、代わりにデータストアから関連トークンを検索・活用することで、ドラフトトークンを生成する。
具体的な手順は以下の通り:
実験の結果、RETSは従来手法と比べて、コード生成タスクで2.12倍から2.36倍、対話タスクで1.62倍から1.77倍の高速化を達成した。RETSは既存の言語モデルに簡単に統合でき、追加の学習も不要という利点がある。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zhenyu He,Ze... kl. arxiv.org 04-05-2024
https://arxiv.org/pdf/2311.08252.pdfDybere Forespørgsler