Core Concepts
HGRN2は、線形注意メカニズムに着想を得た状態拡張手法を導入することで、HGRN1よりも高い表現力を実現し、言語モデリングや画像分類などの課題で優れた性能を示す。
Abstract
本論文では、HGRN (Hierarchically Gated Recurrent Network)の拡張モデルであるHGRN2を提案している。HGRN1は高速な推論と優れたパフォーマンスを示したが、recurrent状態サイズが相対的に小さいため表現力に限界があった。
HGRN2では、線形注意メカニズムに着想を得た状態拡張手法を導入することで、recurrent状態サイズを大幅に拡張している。具体的には、入力ゲートと出力ゲートの計算を要素積から外積に置き換えることで、状態サイズを増やすことができる。この手法は、ハードウェア効率の高いトレーニングアルゴリズムを適用できるという利点もある。
広範な実験の結果、HGRN2はHGRN1よりも言語モデリング、画像分類、Long Range Arenaベンチマークなどで優れた性能を示すことが確認された。特に、3B規模のHGRN2モデルはLLaMaやMambaを上回る言語モデリング性能を発揮し、多くの3B公開モデルと肩を並べる一方で、大幅に少ない総トークン数でトレーニングできることが示された。
Stats
言語モデリングにおいて、HGRN2の3Bモデルは、LLaMaおよびMambaの3Bモデルよりも優れたパープレキシティ(PPL)を示した。
HGRN2の1Bモデルは、Mambaに若干劣るものの、3Bモデルではこれらの手法を上回った。
Quotes
"HGRN2は、線形注意メカニズムに着想を得た状態拡張手法を導入することで、HGRN1よりも高い表現力を実現し、言語モデリングや画像分類などの課題で優れた性能を示す。"
"HGRN2の3Bモデルは、LLaMaやMambaの3Bモデルを上回る言語モデリング性能を発揮し、多くの3B公開モデルと肩を並べる一方で、大幅に少ない総トークン数でトレーニングできる。"