核心概念
本稿では、Transformer動態モデル(TDM)の高速な推論を実現するために、短期計画とQ-Transformerによる長期的な価値推定を組み合わせた、モデルベースの強化学習アルゴリズムであるQT-TDMを提案する。
要約
概要
本稿では、Transformer動態モデル(TDM)と自己回帰型Q学習を用いた新しい計画手法であるQT-TDMが提案されています。TDMは優れた性能を持つ一方、実時間計画における推論の遅さが課題となっていました。QT-TDMは、短期計画とQ-Transformerによる長期的な価値推定を組み合わせることで、この課題を解決しています。
QT-TDMの特徴
- TDMとQ-Transformerという2つのモジュールから構成されるモジュール型アーキテクチャを採用
- 短期計画とQ-Transformerによる長期的な価値推定を組み合わせることで、TDMの推論の遅さを解消
- 高次元状態空間を学習済み線形層を用いて単一のトークンにトークン化することで、従来の次元ごとのトークン化に比べてシーケンス長を削減
実験と結果
QT-TDMは、DeepMind Control SuiteとMetaWorldの様々な連続制御タスクを用いて評価されました。その結果、QT-TDMはベースラインモデルと比較して優れた性能とサンプル効率を示し、高速かつ計算効率の高い推論を実現することが示されました。
結論
QT-TDMは、TDMの表現力と速度のトレードオフに対処する、効率的で効果的なモデルベースの強化学習アルゴリズムです。
今後の展望
- アンサンブルQ関数やカテゴリカルクロスエントロピー損失の利用によるQ値の推定精度の向上
- 大規模で多様なオフラインデータセットを用いた学習による、未見環境における汎化能力の評価
- 観測モデルの開発による、ピクセルベース環境への適用
統計
QT-TDMはGeneralist TDMと比較してパラメータ数が92%削減されている。
QT-TDMはGeneralist TDMと比較して計画に必要なステップ数が85%削減されている。
QT-TDMは、Walkerタスクにおいて100K環境ステップで約600リターン、500K環境ステップで約900リターンを達成した。
引用
"To this end, we introduce QT-TDM, a model-based algorithm that combines the strengths of a TDM and a model-free Q-Transformer (QT) [18]."
"QT-TDM addresses the slow and computationally inefficient inference associated with TDMs, while maintaining superior performance compared to baselines."