이 연구는 다중 정책 평가 문제를 다룹니다. 기존 연구는 단일 정책 평가 방법을 K번 적용하여 다중 정책 평가를 수행했지만, 이는 매우 비효율적입니다.
이 연구에서는 CAESAR 알고리즘을 제안합니다. 이 알고리즘은 두 단계로 구성됩니다:
첫 번째 단계에서는 대상 정책들의 방문 분포에 대한 낮은 차수의 샘플 복잡도 추정치를 생성합니다.
두 번째 단계에서는 단계별 2차 손실 함수를 최소화하여 최적 오프라인 샘플링 분포를 근사하고 모든 대상 정책에 대한 중요도 가중치 비율을 계산합니다.
CAESAR 알고리즘은 H^4/ε^2 * Σ_h max_k Σ_{s,a} (dπk_h(s,a))^2 / μ*_h(s,a) 의 샘플 복잡도를 달성하여, 모든 대상 정책에 대해 ε 오차 범위 내에서 성능을 평가할 수 있습니다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Yilei Chen,A... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00195.pdfDypere Spørsmål