本研究では、複数のターゲットポリシーの性能(期待総報酬)を所定の精度で同時に推定する問題に取り組む。提案するアルゴリズムCAESARは、粗い推定値を用いて最適なオフラインサンプリング分布を計算し、その分布からサンプリングしたデータを使ってポリシーの値を推定する。