이 연구에서는 K개의 대상 정책 성능(기대 총 보상)을 ε 정확도로 1-δ 확률로 평가하는 다중 정책 평가 문제를 다룹니다. CAESAR 알고리즘을 제안하여 이 문제를 해결합니다. 이 접근법은 근사 최적 오프라인 샘플링 분포를 계산하고 이로부터 샘플링된 데이터를 사용하여 정책 가치를 동시에 추정합니다.