Core Concepts
適応的に収集されたデータを用いて、ターゲットポリシーの価値を高確率で正確に推定することができる。
Abstract
本論文では、強化学習のオフラインポリシー評価(OPE)問題を、適応的に収集されたデータを扱う一般化された設定で考察している。具体的には以下の点について議論している:
従来のOPEの設定では、データが単一のロギングポリシーから独立同分布で収集されるという非現実的な仮定を置いていた。本論文では、ロギングポリシーが過去のデータに依存して適応的に選択される一般的な設定を考える。
適応的OPE(AOPE)問題を定義し、AOPEにおいてもTMIS推定量が良好な性能を発揮することを示す。具体的には、高確率の上界界を導出し、従来の非適応設定の最小最大最適な結果を適応設定に拡張できることを示す。
更に、インスタンス依存の上界界を導出し、特定のMDPやポリシーに対して従来の最小最大最適な上界界よりも優れた性能を発揮することを示す。
数値実験により、適応的データ収集が推定誤差に与える影響を分析し、理論結果を検証する。
Stats
状態sと行動aの組み合わせ(h, s, a)の訪問回数nh,s,aが大きいほど、推定誤差が小さくなる。
状態遷移確率Ph+1(s'|s, a)の分散Vars′∼Ph+1(·|s,a)[V π
h+1(s′)]が小さいほど、推定誤差が小さくなる。
目標ポリシーπの状態-行動分布dπ
h(s, a)が大きいほど、推定誤差が大きくなる。
Quotes
"適応的に収集されたデータを用いて、ターゲットポリシーの価値を高確率で正確に推定することができる。"
"インスタンス依存の上界界を導出し、特定のMDPやポリシーに対して従来の最小最大最適な上界界よりも優れた性能を発揮することを示す。"