Concepts de base
RecurrentGemmaは、Griffinアーキテクチャを採用し、変換器を超えた優れたパフォーマンスを実現する。固定サイズの状態を使うことで、メモリ使用量を削減し、長シーケンスでの効率的な推論を可能にする。
Résumé
本論文では、RecurrentGemmaという新しい言語モデルを紹介する。RecurrentGemmaは、Griffinアーキテクチャを採用しており、変換器モデルを超えた優れたパフォーマンスを示す。
主な特徴は以下の通り:
- Griffinアーキテクチャは、線形再帰と局所アテンションの組み合わせにより、優れた言語モデリング性能を実現する
- 固定サイズの状態を使うため、メモリ使用量が削減され、長シーケンスでの効率的な推論が可能
- 2B非エンベディングパラメータを持つ事前学習モデルと、命令チューニングモデルを公開
- 事前学習モデルとチューニングモデルともに、Gemma-2Bと同等の性能を達成しつつ、より少ないトークン数で学習
さらに、RecurrentGemmaの推論速度ベンチマークの結果を示す。Gemmaと比較して、長シーケンスの自己回帰サンプリングで大幅に高いスループットを達成できることを確認した。
最後に、モデルのリリースに際して、安全性の評価と緩和策について述べている。
Stats
Gemma-2Bと比較して、RecurrentGemma-2Bは、MMLU 5-shot top-1で38.4%、HellaSwag 0-shotで71.0%、PIQA 0-shotで78.5%、SIQA 0-shotで51.8%、Boolq 0-shotで71.3%、Winogrande partial scoringで67.8%の性能を示した。
安全性ベンチマークでは、RealToxicityの平均スコアが9.8、BOLDが39.3、CrowS-Pairsのtop-1が41.1、BBQ Ambigのtop-1が62.6、BBQ Disambigのtop-1が58.4、Winogenderのtop-1が55.1、TruthfulQAが35.1、Winobias 1_2が58.4、Winobias 2_2が90.0、Toxigenが56.7であった。