本研究では、複数のターゲットポリシーの性能(期待総報酬)を所定の精度で同時に推定する問題に取り組む。
提案するアルゴリズムCAESARは以下の2つのフェーズから成る:
ターゲットポリシーの訪問分布の粗い推定値を低次のサンプル複雑度で算出する。
最適なオフラインサンプリング分布を近似的に計算し、そこからサンプリングしたデータを用いて重要度加重によりポリシーの値を推定する。
粗い訪問分布推定では、各状態行動ペアの訪問確率を一定の倍率誤差内で推定できる。この粗い推定値に基づき、ターゲットポリシー集合に対して最適なサンプリング分布を凸最適化問題として求める。
最適サンプリング分布からサンプリングしたデータを用いて、重要度加重によりポリシーの値を推定する。重要度比の推定には、ステップごとの損失関数を最小化する手法を提案し、強convexで滑らかな性質を利用して非漸近的な標本複雑度を得る。
最終的に、CAESARは高確率で所定の精度でターゲットポリシーの性能を同時に推定できることを示す。提案手法は、単純な均一サンプリングよりも優れた性能を示す。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yilei Chen,A... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00195.pdfDeeper Inquiries