Core Concepts
状態ベースの重要度サンプリングは、重要度サンプリングの分散を低減し、オフポリシー評価の精度を向上させる。
Abstract
本論文は、オフポリシー評価の分散を低減する新しい手法である状態ベースの重要度サンプリングを提案している。従来の重要度サンプリングは、ターゲットポリシーとふるまいポリシーの確率比を累積的に計算するため、長期的な計画を必要とする問題では分散が指数関数的に増大するという問題があった。
状態ベースの重要度サンプリングは、重要度の計算から「無視できる状態」を除外することで、分散を大幅に低減する。具体的には、状態集合SAを特定し、そのSA内の状態については重要度の計算から除外する。SAの選定には、共分散検定に基づく手法と、Q値に基づく手法の2つを提案している。
提案手法は、通常の重要度サンプリング、加重重要度サンプリング、1決定重要度サンプリング、増分重要度サンプリング、双頑健オフポリシー評価、定常密度比推定などの様々なオフポリシー評価手法に適用可能である。4つのドメインでの実験結果から、提案手法は従来手法に比べて一貫して分散が低く、精度が高いことが示された。
Stats
重要度サンプリングの分散は、時間地平Hの指数関数に比例する。
状態ベースの重要度サンプリングの分散は、非無視状態の最大訪問回数MBの指数関数に比例する。
状態ベースの重要度サンプリングの平均二乗誤差は、共分散の2乗とMBの指数関数の和で上限付けられる。
Quotes
"重要度サンプリングに基づくオフポリシー評価では、時間地平Hが大きくなるにつれ、分散が指数関数的に増大するという問題がある。"
"状態ベースの重要度サンプリングは、重要度の計算から「無視できる状態」を除外することで、分散を大幅に低減する。"
"提案手法は、様々なオフポリシー評価手法に適用可能であり、実験結果から従来手法に比べて一貫して分散が低く、精度が高いことが示された。"