深層選択的状態空間モデルにおけるトークン挙動の理論的解明:収束と発散の分析、性能への影響、改善のための提案
深層選択的状態空間モデル(SSM)であるMambaのトークン動態は、モデルパラメータによって決定され、収束または発散のいずれかの挙動を示す。収束はモデルの性能に悪影響を及ぼす一方、発散はトークンごとに異なるレートで発生し、モデルの学習への寄与にばらつきが生じる。本研究では、これらの知見に基づき、収束シナリオの排除と重要度に応じたトークンの並べ替えという2つの改善策を提案し、実用的な性能向上を目指す。