核心概念
オフラインの専門家の軌道を指針として活用し、状態-行動の訪問分布を専門家の軌道に整合させることで、効率的な探索と信頼できる報酬帰属を実現する。
要約
本研究では、疎な報酬信号が存在する環境における深層強化学習の課題に取り組む。
- 専門家の軌道をデモンストレーションとして活用し、それらを単なる模倣ではなく指針として扱うことで、エージェントの状態-行動の訪問分布を専門家の軌道に整合させる。
- 軌道間の距離を表すための新しい指標として、最大平均差異(MMD)に基づく軌道距離を提案する。
- この軌道距離に基づく制約付き最適化問題を定式化し、方策勾配アルゴリズムを用いて解くことで、専門家軌道からの洞察に基づく内発的報酬を組み込んだ方策最適化を行う。
- 離散行動空間のナビゲーションタスクと連続制御タスクの2つの環境で評価を行い、提案手法が他の手法に比べて優れた探索性能と最適な方策獲得を示す。
統計
専門家の軌道と現在の方策の状態-行動の訪問分布の最大平均差異(MMD)が訓練に伴って減少する。
提案手法は他の手法に比べて、より高い平均リターンを獲得する。
引用
"本研究では、オフラインの専門家の軌道を単なる模倣ではなく指針として扱うことで、エージェントの状態-行動の訪問分布を専門家の軌道に整合させる。"
"最大平均差異(MMD)に基づく軌道距離を定義し、この距離に基づく制約付き最適化問題を解くことで、専門家軌道からの洞察に基づく内発的報酬を組み込んだ方策最適化を行う。"