Core Concepts
マンバモデルは、トランスフォーマーモデルと比較して、一部のタスクでは優れた性能を示すが、他のタスクでは劣る。ハイブリッドモデルであるMambaFormerは、両者の長所を活かし、様々なインコンテキスト学習タスクで優れた性能を発揮する。
Abstract
本研究は、状態空間モデル(SSM)、特にマンバモデルの、インコンテキスト学習(ICL)能力を評価し、トランスフォーマーモデルとの比較を行っている。
主な結果は以下の通り:
マンバモデルは、標準的な回帰ICLタスクではトランスフォーマーと同等の性能を示す一方で、疎パリティ学習などの複雑なタスクではトランスフォーマーを上回る。
しかし、マンバモデルは、決定木学習や情報検索タスクなどでは劣る。
そこで提案されたハイブリッドモデルのMambaFormerは、両者の長所を活かし、様々なICLタスクで優れた性能を発揮する。特に、疎パリティ学習やベクトル値MQARタスクでは、単独のマンバやトランスフォーマーを上回る。
本研究の結果は、ICL能力の理解を、トランスフォーマーを超えた新しいアーキテクチャにも広げる必要性を示唆している。ハイブリッドモデルのような、注意機構とSSMの長所を組み合わせた設計が有望な方向性であると考えられる。
Stats
線形回帰タスクでは、マンバモデルとトランスフォーマーモデルの性能が同等である。
疎線形回帰タスクでは、マンバモデルの方がトランスフォーマーモデルよりも優れた性能を示す。
2層ニューラルネットワーク回帰タスクでは、マンバモデルの方がトランスフォーマーモデルよりも優れた性能を示す。
決定木学習タスクでは、トランスフォーマーモデルの方がマンバモデルよりも優れた性能を示す。
多数のアウトライアーを含む線形回帰タスクでは、マンバモデルの方がトランスフォーマーモデルよりも優れた性能を示す。
ベクトル値MQARタスクでは、トランスフォーマーモデルの方がマンバモデルよりも優れた性能を示す。
Quotes
"State-space models (SSMs), such as Mamba Gu & Dao (2023), have been proposed as alternatives to Transformer networks in language modeling, by incorporating gating, convolutions, and input-dependent token selection to mitigate the quadratic cost of multi-head attention."
"Although SSMs exhibit competitive performance, their in-context learning (ICL) capabilities, a remarkable emergent property of modern language models that enables task execution without parameter optimization, remain underexplored compared to Transformers."
"Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning. However, SSMs fall short in tasks involving non-standard retrieval functionality."