本論文は、モデルベースの強化学習アルゴリズムを提案し、連続制御タスクにおける効率的な探索を実現する。
主な内容は以下の通り:
モデルベースの内発的報酬を用いたオフポリシー学習アルゴリズム「ACE planner」を提案した。ACE plannerは、オンラインプランナーと価値関数の同時学習を行い、モデル不確実性に基づく内発的報酬を活用することで、効率的な探索を実現する。
MVEベースの価値関数推定手法を導入し、バイアスとバリアンスのトレードオフを調整することで、信用割当の高速化を図った。
提案手法をDMControl、Adroit、Meta-Worldのベンチマークタスクで評価した。実験結果より、ACE plannerは既存手法と比較して優れた漸近的性能と標本効率を示すことを確認した。特に、スパース報酬環境での探索問題に対して顕著な性能向上が見られた。
提案手法の各コンポーネントの相対的重要性を分析し、内発的報酬とMVEベースの価値関数推定が最も大きな効果を発揮することを示した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問