核心概念
RMDPsにおける平均とブラックウェル最適性の研究を探求する。
要約
RMDPsは、パラメータ不確実性下での逐次意思決定のための広く使用されるフレームワークである。本論文では、割引リターン以外のRMDPsに関する基本的な結果を証明し、平均最適性とブラックウェル最適性に焦点を当てる。平均最適ポリシーは常に静的かつ決定論的であり、驚くべきことに、歴史依存型(マルコフ)ポリシーが平均リターン基準で静的ポリシーよりも優れていることが示されている。さらに、sa-rectangular RMDPsでは近似ブラックウェル最適ポリシーが常に存在し、しかしブラックウェル最適ポリシーが存在しない場合もあることが示されている。また、平均とブラックウェル最適性の関連性や最適平均リターンを計算するためのアルゴリズムなども議論されている。これらの新しい結果はs-rectangular RMDPsに対しても興味深い洞察を提供している。
統計
RMDPsは逐次意思決定の枠組みであり、割引率γ P p0,1qを用いた未来インスタント報酬の割引化が行われています。
sa-rectangular RMDPsでは近似ブラックウェル最適ポリシーが常に存在します。
s-rectangular RMDPsでは歴史依存型(マルコフ)ポリシーが静的ポリシーよりも優れています。
引用
"Robust MDPs have found some applications in healthcare, where the set of states represents the potential health conditions of the patients."
"We show that average optimal policies can be chosen stationary and deterministic for sa-rectangular RMDPs."
"We also provide a sufficient condition for their existence, which encompasses virtually any examples from the literature."