本論文は、状態空間モデル(SSM)の長期記憶学習能力を理論的に分析したものである。
まず、SSMにおいても従来のRNNと同様に、再パラメータ化を行わない場合は、指数関数的に減衰する記憶しか安定的に近似できないことを示した。これは、SSMの構造自体では長期記憶の呪いを回避できないことを意味する。
次に、著者らは「安定な再パラメータ化」と呼ばれる手法を提案した。この手法を用いることで、多項式的に減衰する記憶を持つ非線形関数も安定的に近似できることを理論的に示した。一般的な指数関数的再パラメータ化やsoftplusなどがこの安定な再パラメータ化に該当する。
さらに、最適化の観点から見ると、安定な再パラメータ化は勾配スケールを適切に保つことができ、大規模モデルの最適化を安定化させる効果があることを示した。
以上より、状態空間モデルにおける長期記憶学習の鍵は、適切な再パラメータ化手法にあることが明らかになった。
To Another Language
from source content
arxiv.org
Djupare frågor