本論文では、RWKV-5 (Eagle)とRWKV-6 (Finch)という2つの新しい系列モデルアーキテクチャを紹介する。
Eagle は、RWKV-4の設計を改善し、マルチヘッドのマトリックス値の状態、新しい受容関数、追加のゲーティング機構を導入することで表現力を高めている。Finchはさらに、時間混合と符号シフトのモジュールに新しいデータ依存関数を導入することで、アーキテクチャの表現力と柔軟性を向上させている。
また、新しい多言語トークナイザーであるRWKV World Tokenizerと、112兆トークンの大規模多言語データセットであるRWKV World v2を紹介する。
広範な実験の結果、Eagle and Finchモデルは、さまざまな系列モデリングドメインとタスクにおいて、既存のモデルと同等以上の性能を示すことが分かった。具体的には、一般的な英語とマルチリンガルのテキストベンチマーク、連想再現タスク、音楽モデリング、ビジョン-言語ベンチマークなどで評価を行った。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問