Concetti Chiave
言語モデルの遅延次トークン生成は、新しいパラダイムを探求し、幅広いタスクで性能向上をもたらす可能性がある。
Statistiche
ダミートークン()を使用した遅延次トークン生成は、SQuAD質問回答タスクで18%のEMスコア向上など、多くのタスクで利益が示されています。
Citazioni
"Transformer may take advantage of a 'wider' computational pathway induced by the delay."
"Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm."