분포적 강화학습에서의 추정과 추론
본 논문은 분포적 강화학습의 통계적 효율성 관점에서 연구합니다. 주어진 정책 π의 완전한 수익 분포 ηπ를 추정하는 문제를 다룹니다. 생성 모델을 활용하여 확실성 등가 방법으로 추정량 ˆηπ를 구성합니다. 이를 통해 p-Wasserstein 거리, Kolmogorov-Smirnov 거리, 총변동 거리 사이의 오차를 비대칭적으로 제어할 수 있음을 보입니다. 또한 ˆηπ의 점근적 행동을 분석하여 다양한 통계적 추론을 수행할 수 있음을 보여줍니다.