核心概念
オフラインでの政策評価の標本複雑度は、元のMDPの濃縮係数ではなく、関数クラスと
オフラインデータ分布によって決まる集約されたマルコフ遷移モデルの濃縮係数によって
支配される。さらに、この集約された濃縮係数は、元のMDPの濃縮係数が小さく、オフラ
インデータが許容可能であっても、水平長に指数的に増大する可能性がある。また、値関
数の実現可能性の下では、許容可能なデータを持つ困難な事例を軌道データを持つ困難な
事例に一般的に変換できる、つまり軌道データには追加の利点はない。
摘要
本論文は、オフラインでの強化学習における政策評価の問題を分析しています。主な
発見は以下の3点です:
-
オフラインでの政策評価の標本複雑度は、元のMDPの濃縮係数ではなく、関数クラス
とオフラインデータ分布によって決まる集約されたマルコフ遷移モデルの濃縮係数に
よって支配される。これは、Xie and Jiang (2021)とFoster et al. (2022)の考えを統一
し、一般化したものです。
-
集約された濃縮係数は、元のMDPの濃縮係数が小さく、オフラインデータが許容可能
(つまり、オフラインデータ分布がある方策の占有度と等しい)であっても、水平長に
指数的に増大する可能性がある。
-
値関数の実現可能性の下では、許容可能なデータを持つ困難な事例を軌道データを持
つ困難な事例に一般的に変換できる。つまり、軌道データには追加の利点はない。
これら3つの結果が、オープンな問題を解決しています。それぞれが独立した興味深い
結果でもあります。
統計資料
元のMDPの濃縮係数は多項式オーダーであるが、集約された濃縮係数は水平長に指数
的に増大する可能性がある。
許容可能なデータを持つ困難な事例を軌道データを持つ困難な事例に一般的に変換で
きる。
引述
"オフラインでの政策評価の標本複雑度は、元のMDPの濃縮係数ではなく、関数クラス
とオフラインデータ分布によって決まる集約されたマルコフ遷移モデルの濃縮係数に
よって支配される。"
"集約された濃縮係数は、元のMDPの濃縮係数が小さく、オフラインデータが許容可能
であっても、水平長に指数的に増大する可能性がある。"
"値関数の実現可能性の下では、許容可能なデータを持つ困難な事例を軌道データを持
つ困難な事例に一般的に変換できる。"