Core Concepts
本論文では、一般的な環境擾乱に対するロバスト性と安全性を両立する強化学習フレームワークを提案する。最適輸送コストに基づく不確実性集合を用いることで、データ収集中に環境を変更することなく、仮想的な状態遷移を構築し、ロバストな性能と安全性を保証する。
Abstract
本論文では、ロバストな強化学習のためのフレームワークを提案している。
まず、最適輸送コストに基づく不確実性集合を定義し、この集合に対する最悪値最適化問題を、状態空間上の摂動関数を用いて効率的に解くことを示した(定理1)。
次に、この最適輸送摂動を深層強化学習に適用する手法を提案した。具体的には、摂動ネットワークを学習し、観測された状態遷移に対して摂動を適用することで、ロバストなQ関数を効率的に学習できる。
実験では、連続制御タスクにおいて、提案手法が標準的な安全な強化学習手法と比べて、ロバストな性能と安全性を示した。特に、環境擾乱に対する安全性が大幅に向上しており、従来の敵対的強化学習手法や分布頑健な手法と比べても優れた結果を示した。
Stats
報酬の平均値は標準的な安全な強化学習手法と比べて1.06倍向上した。
安全制約を満たした割合は87%であり、標準的な安全な強化学習手法の51%と比べて大幅に向上した。
総コストは標準的な安全な強化学習手法の0.34倍に抑えられた。