Alapfogalmak
이 연구에서는 K개의 대상 정책 성능(기대 총 보상)을 ε 정확도로 1-δ 확률로 평가하는 다중 정책 평가 문제를 다룹니다. CAESAR 알고리즘을 제안하여 이 문제를 해결합니다. 이 접근법은 근사 최적 오프라인 샘플링 분포를 계산하고 이로부터 샘플링된 데이터를 사용하여 정책 가치를 동시에 추정합니다.
Kivonat
이 연구는 다중 정책 평가 문제를 다룹니다. 기존 연구는 단일 정책 평가 방법을 K번 적용하여 다중 정책 평가를 수행했지만, 이는 매우 비효율적입니다.
이 연구에서는 CAESAR 알고리즘을 제안합니다. 이 알고리즘은 두 단계로 구성됩니다:
-
첫 번째 단계에서는 대상 정책들의 방문 분포에 대한 낮은 차수의 샘플 복잡도 추정치를 생성합니다.
-
두 번째 단계에서는 단계별 2차 손실 함수를 최소화하여 최적 오프라인 샘플링 분포를 근사하고 모든 대상 정책에 대한 중요도 가중치 비율을 계산합니다.
CAESAR 알고리즘은 H^4/ε^2 * Σ_h max_k Σ_{s,a} (dπk_h(s,a))^2 / μ*_h(s,a) 의 샘플 복잡도를 달성하여, 모든 대상 정책에 대해 ε 오차 범위 내에서 성능을 평가할 수 있습니다.
Statisztikák
Σ_{s,a} (dπk_h(s,a))^2 / μ*_h(s,a)는 정책 πk의 h단계 상태-행동 방문 분포의 제곱의 합을 최적 샘플링 분포 μ*_h(s,a)로 나눈 값입니다.
H는 에피소드의 horizon(단계 수)입니다.
ε은 성능 추정 오차 허용 범위이고, δ는 실패 확률입니다.
Idézetek
"이 접근법은 근사 최적 오프라인 샘플링 분포를 계산하고 이로부터 샘플링된 데이터를 사용하여 정책 가치를 동시에 추정합니다."
"CAESAR 알고리즘은 H^4/ε^2 * Σ_h max_k Σ_{s,a} (dπk_h(s,a))^2 / μ*_h(s,a) 의 샘플 복잡도를 달성하여, 모든 대상 정책에 대해 ε 오차 범위 내에서 성능을 평가할 수 있습니다."