検索ベースの推測デコーディング(REST)は、言語モデルの生成を高速化するための新しいアルゴリズムである。RETSは、既存の知識を活用して関連トークンを検索・活用することで、従来の小規模言語モデルを使う手法よりも効率的にドラフトトークンを生成する。