Alapfogalmak
説明手法を組み込んだ新しい強化学習の改善手法RICEを提案し、複雑なタスクにおける強化学習エージェントの性能を大幅に向上させる。
Kivonat
本論文は、深層強化学習(DRL)エージェントの最適な性能を得るための課題に取り組んでいる。特に、疎報酬環境下での複雑なタスクにおいて、DRLエージェントの訓練が停滞してしまう問題に着目している。
提案手法RICEは以下の2つのステップから成る:
- 説明手法を用いて、事前に訓練されたDRLポリシーの重要な状態を特定する。これらの状態を「探索フロンティア」として活用する。
- 探索フロンティアから開始する探索を奨励することで、エージェントの状態空間カバレッジを拡大し、訓練ボトルネックを突破する。
具体的には、RICEは状態マスク手法を用いて重要な状態を特定し、デフォルトの初期状態分布とこれらの重要状態を混合した初期状態分布を構築する。この混合初期状態分布を用いて、探索ベースの手法(PPO)によりエージェントを更新する。
理論的な分析により、提案手法RICEが既存手法よりも厳しい最適性ギャップの上界を持つことを示した。
また、様々なシミュレーション環境とリアルワールドのアプリケーションにおいて、RICEが既存の改善手法を大きく上回る性能向上を達成することを実証した。
Statisztikák
深層強化学習エージェントの訓練には1か月以上の期間と数百万ドルのコストがかかる可能性がある。
提案手法RICEは、既存の改善手法と比べて、様々なタスクにおいて大幅な性能向上を達成できる。
Idézetek
"深層強化学習(DRL)は、シミュレーションゲームの実行から自律走行車のナビゲーションまで、様々な実世界アプリケーションで重要な役割を果たしている。しかし、特に疎報酬環境下での複雑なタスクに対して、最適な性能を発揮するDRLエージェントを得ることは大きな課題である。"
"訓練中、DRLエージェントはしばしば進展が停滞し、さらなる改善が見られなくなる。"