多項ロジスティック関数近似を用いることで、従来の線形モデルの制限を克服し、状態遷移確率をより柔軟かつ正確にモデル化できる、証明可能効率的な強化学習アルゴリズムを提案する。
本稿では、標準的でシンプルなモデルベース強化学習(MBRL)の手法である、最尤推定(MLE)による遷移モデルの学習と、学習済みモデル内での楽観的/悲観的プランニングを組み合わせることで、オンラインおよびオフラインのRL設定において、強力なリグレットとサンプル複雑さの限界を達成できることを示しています。
本稿では、推定モデルから生成された信頼性の低いデータがモデルフリー学習の効率と有効性を阻害する可能性があるという、既存のDyna型強化学習アルゴリズムの重要な制限に対処する、OOD(Out-of-Distribution)データフィルターを導入することで、Dyna型モデルベース強化学習アルゴリズムの向上を提案する。
本稿では、Mambaと呼ばれる状態空間モデル(SSM)をベースにした、サンプル効率とパラメータ効率に優れた新しいモデルベース強化学習エージェント「DRAMA」を提案する。DRAMAは、特に長い訓練シーケンスを効果的に処理できるMamba-2アーキテクチャを採用することで、従来のRNNやTransformerベースのモデルが抱える課題を克服し、Atari 100kベンチマークにおいて最先端のアルゴリズムに匹敵する性能を達成した。