オフラインでの強化学習における状態集約と軌道データの役割
オフラインでの政策評価の標本複雑度は、元のMDPの濃縮係数ではなく、関数クラスと
オフラインデータ分布によって決まる集約されたマルコフ遷移モデルの濃縮係数によって
支配される。さらに、この集約された濃縮係数は、元のMDPの濃縮係数が小さく、オフラ
インデータが許容可能であっても、水平長に指数的に増大する可能性がある。また、値関
数の実現可能性の下では、許容可能なデータを持つ困難な事例を軌道データを持つ困難な
事例に一般的に変換できる、つまり軌道データには追加の利点はない。