Keskeiset käsitteet
RNN models Hawk and Griffin show superior performance and efficiency compared to Transformers in language modeling tasks.
Tiivistelmä
2024年3月1日、Google DeepMindの研究者らが提案したHawkとGriffinは、ゲート付き線形再帰を組み合わせたRNNモデルであり、Transformerよりも優れた性能と効率を示しています。これらのモデルは長いシーケンスに対しても優れた予測能力を持ち、訓練および推論時の効率性が高いことが示されています。特にGriffinはローカルアテンションを使用し、長いコンテキストに対しても優れた予測能力を発揮します。さらに、これらのモデルはコピーおよび検索タスクにおいても高い性能を示し、事前トレーニングされたモデルでも有望な結果が得られています。
Tilastot
GriffinはLlama-2と同等のパフォーマンスを達成しました。
Griffinは1024トークンのローカルアテンションウィンドウサイズを使用しています。
HawkとGriffinはMQA Transformerよりも高いスループットを達成しました。
Lainaukset
"Recurrent models Hawk and Griffin improve next token prediction given longer contexts, extrapolating to significantly longer sequences than they were trained on."
"Hawk and Griffin demonstrate exceptional ability to extrapolate on tasks requiring copying and retrieval capabilities."
"Griffin achieves similar latency to Hawk, showing excellent compatibility of linear recurrences and local attention."