Core Concepts
本論文では、低ランク MDPにおける新しいロバスト性概念である(ξ, η)-矩形性を提案し、これに基づいた効率的なアルゴリズムR2PGを設計した。R2PGは理論的な収束保証を持ち、特徴量と因子の双方の摂動に対処できる。
Abstract
本論文は、強化学習における最近の重要なトピックであるロバスト性について取り扱っている。
従来のロバストMDPアプローチは計算量が高く、大規模な状態行動空間に適用するのが困難であった。
本論文では、低ランクMDPにおける新しいロバスト性概念である(ξ, η)-矩形性を提案した。
この概念は特徴量と因子の双方の摂動を考慮し、効率的な最適化が可能である。
提案するアルゴリズムR2PGは、この新しいロバスト性概念に基づいて設計されており、理論的な収束保証を持つ。
R2PGは、大規模な状態行動空間にも適用可能であり、実用的な強化学習アプローチとなる。
数値実験では、R2PGが適切な保守的な振る舞いを示すことを確認した。
Stats
特徴量ϕ(s, a)のノルムは1以下である。
因子νhのノルムは√d以下である。
因子Ps V(s)μh(s)のノルムは√d以下である。