本論文では、モデルミスマッチが存在する環境下での制約付き強化学習問題を扱う。具体的には、報酬を最大化しつつ、制約条件を満たすような方策を学習することが目的である。
まず、モデルミスマッチを表現するための不確実性集合を定義し、その下での最悪ケースの報酬と制約を表す堅牢な価値関数を導入する。次に、この堅牢な価値関数を最大化しつつ制約を満たす方策を学習するためのアルゴリズム、Robust Constrained Policy Optimization (RCPO)を提案する。
RCPOアルゴリズムは2つのステップから構成される。第1ステップでは、現在の方策の近傍で堅牢な報酬改善を保証する方策改善を行う。第2ステップでは、得られた方策が制約を満たすように射影を行う。
理論的には、RCPOアルゴリズムが各更新ステップで堅牢な報酬改善と制約違反の上界を保証することを示す。また、大規模な問題にも適用可能なように、効率的な実装方法も提案する。
最後に、様々な環境下でRCPOの有効性を確認する実験結果を示す。RCPO は、モデルミスマッチが存在する環境下でも、制約を満たしつつ高い報酬を得られることが確認された。
To Another Language
from source content
arxiv.org
Głębsze pytania