핵심 개념
본 논문은 상태 추상화를 활용하여 대규모 상태 공간에서 오프-정책 평가의 정확성을 향상시키는 방법을 제안한다. 구체적으로 모델 기반 및 모델 자유 형태의 상태 추상화 조건을 정의하고, 이를 바탕으로 반복적인 상태 공간 압축 알고리즘을 제안한다. 이를 통해 다양한 오프-정책 평가 방법론의 Fisher 일치성을 보장한다.
초록
본 논문은 오프-정책 평가(OPE)에서 상태 추상화의 활용을 체계적으로 연구한다. 주요 내용은 다음과 같다:
-
OPE에 적합한 모델 자유 및 모델 기반 상태 추상화 조건을 정의한다. 이를 통해 중요도 샘플링 비율의 불변성을 달성할 수 있는 조건을 제시한다.
-
반복적인 상태 공간 압축 알고리즘을 제안한다. 이 알고리즘은 각 반복 단계에서 상태 공간의 크기를 줄이거나 유지하여, 최종적으로 심층 추상화된 상태 공간을 생성한다.
-
제안된 추상화 공간에서 다양한 OPE 방법론의 Fisher 일치성을 검증한다. 이를 통해 추상화된 공간에서도 OPE 추정량의 일치성을 보장한다.
전체적으로 본 논문은 대규모 상태 공간에서 OPE의 정확성을 향상시키기 위해 상태 추상화를 체계적으로 활용하는 방법을 제시한다.
통계
상태 공간의 크기가 클수록 OPE 추정량의 오차 한계가 빠르게 증가한다.
상태 추상화를 통해 상태 공간의 차원을 줄일 경우 OPE 추정량의 정확성이 크게 향상된다.
인용구
"Off-policy evaluation (OPE) serves as a crucial tool for assessing the impact of a newly developed policy using a pre-collected historical data before its deployment in high-stake applications, such as healthcare (Murphy et al., 2001), recommendation systems (Chapelle and Li, 2011), education (Mandel et al., 2014), dialog systems (Jiang et al., 2021) and robotics (Levine et al., 2020)."
"Although different policies induce different trajectories in the large ground state space, they can produce similar paths when restricted to relevant, lower-dimensional state spaces (Pavse and Hanna, 2023). Consequently, applying OPE to these abstract spaces can significantly mitigate the distributional shift between target and behavior policies, enhancing the accuracy in predicting the target policy's value."