この論文は、オフライン強化学習に焦点を当てており、事前収集したデータを使用して学習します。効果的なオフライン強化学習は、分布シフトや限られたデータカバレッジに対応できる必要があります。従来のアルゴリズムや分析は、サブ最適なサンプル複雑性に苦しんでいるか、サンプル最適性に到達するために高い初期コストを負担しています。この論文では、モデルベース(または「プラグイン」)アプローチがタブラーMDPにおいて最小最適なサンプル複雑性を実現することが示されました。提案されたアルゴリズムは、「ペシミスティック」バリアントの価値反復であり、洗練された分散削減を必要としません。我々の分析フレームワークは、MDP向けに調整された注意深い自己境界技術と組み合わせて構築されています。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Gen Li,Laixi... alle arxiv.org 03-05-2024
https://arxiv.org/pdf/2204.05275.pdfDomande più approfondite