核心概念
本論文では、遷移観測データから、最良および最悪のケースにおける方策の価値を効率的かつ頑健に推定する手法を提案する。
要約
本論文では、マルコフ決定過程(MDP)の遷移確率が未知の環境シフトの可能性がある場合のオフポリシー評価問題を扱う。
遷移確率を最大Λ倍まで変動させることのできる不確実性集合を定義し、この集合内での最良および最悪のケースにおける方策価値を特定する。
頑健フィッテッドQ評価(Robust FQE)アルゴリズムを提案し、この不確実性集合内での最良および最悪のケースの価値関数を推定する。
推定された価値関数を用いて、最良および最悪のケースの初期状態価値を推定するオーソゴナルな推定量を提案する。
この推定量は、ニュイサンス関数の推定誤差に対して頑健であり、半parametric効率性も達成する。
数値実験により、提案手法の有効性を示す。
統計
遷移確率の最大変動倍率Λ(s, a)は1以上の有限値である。
割引率γは0以上1未満の値である。
報酬関数r(s, a)は0から1の値をとる。
初期状態分布d1は確率分布である。