本論文では、強化学習のオフラインポリシー評価(OPE)問題を、適応的に収集されたデータを扱う一般化された設定で考察している。具体的には以下の点について議論している:
従来のOPEの設定では、データが単一のロギングポリシーから独立同分布で収集されるという非現実的な仮定を置いていた。本論文では、ロギングポリシーが過去のデータに依存して適応的に選択される一般的な設定を考える。
適応的OPE(AOPE)問題を定義し、AOPEにおいてもTMIS推定量が良好な性能を発揮することを示す。具体的には、高確率の上界界を導出し、従来の非適応設定の最小最大最適な結果を適応設定に拡張できることを示す。
更に、インスタンス依存の上界界を導出し、特定のMDPやポリシーに対して従来の最小最大最適な上界界よりも優れた性能を発揮することを示す。
数値実験により、適応的データ収集が推定誤差に与える影響を分析し、理論結果を検証する。
To Another Language
from source content
arxiv.org
Дополнительные вопросы