本論文は、オフラインでの強化学習における政策評価の問題を分析しています。主な
発見は以下の3点です:
オフラインでの政策評価の標本複雑度は、元のMDPの濃縮係数ではなく、関数クラス
とオフラインデータ分布によって決まる集約されたマルコフ遷移モデルの濃縮係数に
よって支配される。これは、Xie and Jiang (2021)とFoster et al. (2022)の考えを統一
し、一般化したものです。
集約された濃縮係数は、元のMDPの濃縮係数が小さく、オフラインデータが許容可能
(つまり、オフラインデータ分布がある方策の占有度と等しい)であっても、水平長に
指数的に増大する可能性がある。
値関数の実現可能性の下では、許容可能なデータを持つ困難な事例を軌道データを持
つ困難な事例に一般的に変換できる。つまり、軌道データには追加の利点はない。
これら3つの結果が、オープンな問題を解決しています。それぞれが独立した興味深い
結果でもあります。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Zeyu Jia,Ale... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17091.pdfPerguntas Mais Profundas