本研究では、文書ランキングタスクにおけるMambaモデルの性能を評価した。主な結果は以下の通り:
エンコーダのみのトランスフォーマーベースモデル(BERT、RoBERTa)は、文書ランキングタスクでも優れた性能を発揮する。例えば、bert-base-uncased、roberta-largeは、同規模のモデルの中で最高のMRRを達成した。
デコーダのみのモデル(OPT、Pythia)やエンコーダ-デコーダモデル(T5)は、MSMARCO Dev datasetでは相対的に低い性能だが、TREC DL19/20のような詳細な関連性判断を持つデータセットでは良好な性能を示す。これは、データセットの注釈スキームの違いによるものと考えられる。
同規模のモデルと比較して、Mambaモデルも競争力のある性能を発揮する。例えば、state-spaces/mamba-130mは、110Mパラメータ規模のモデルの中で最高のNDCG@10を達成した。state-spaces/mamba-370mも330M規模のモデルの中で最高のNDCG@10を記録した。
ただし、Mambaモデルのトレーニングスループットは、効率的なトランスフォーマー実装(Flash Attention)と比べて低い。これは、Mambaの現在の実装に課題があることを示唆している。
以上より、Mambaモデルは文書ランキングタスクでも競争力のある性能を発揮するが、トレーニング効率の改善の余地がある。今後の課題として、より大規模なモデルや異なる前処理手法を検討する必要がある。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問