本論文では、HGRN (Hierarchically Gated Recurrent Network)の拡張モデルであるHGRN2を提案している。HGRN1は高速な推論と優れたパフォーマンスを示したが、recurrent状態サイズが相対的に小さいため表現力に限界があった。
HGRN2では、線形注意メカニズムに着想を得た状態拡張手法を導入することで、recurrent状態サイズを大幅に拡張している。具体的には、入力ゲートと出力ゲートの計算を要素積から外積に置き換えることで、状態サイズを増やすことができる。この手法は、ハードウェア効率の高いトレーニングアルゴリズムを適用できるという利点もある。
広範な実験の結果、HGRN2はHGRN1よりも言語モデリング、画像分類、Long Range Arenaベンチマークなどで優れた性能を示すことが確認された。特に、3B規模のHGRN2モデルはLLaMaやMambaを上回る言語モデリング性能を発揮し、多くの3B公開モデルと肩を並べる一方で、大幅に少ない総トークン数でトレーニングできることが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問