本論文では、HGRN (Hierarchically Gated Recurrent Network)の拡張モデルであるHGRN2を提案している。HGRN1は高速な推論と優れたパフォーマンスを示したが、recurrent状態サイズが相対的に小さいため表現力に限界があった。
HGRN2では、線形注意メカニズムに着想を得た状態拡張手法を導入することで、recurrent状態サイズを大幅に拡張している。具体的には、入力ゲートと出力ゲートの計算を要素積から外積に置き換えることで、状態サイズを増やすことができる。この手法は、ハードウェア効率の高いトレーニングアルゴリズムを適用できるという利点もある。
広範な実験の結果、HGRN2はHGRN1よりも言語モデリング、画像分類、Long Range Arenaベンチマークなどで優れた性能を示すことが確認された。特に、3B規模のHGRN2モデルはLLaMaやMambaを上回る言語モデリング性能を発揮し、多くの3B公開モデルと肩を並べる一方で、大幅に少ない総トークン数でトレーニングできることが示された。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Zhen Qin,Son... às arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07904.pdfPerguntas Mais Profundas