로봇 학습 분야에서 정책 평가 시 성공률 외에 다양한 지표와 통계 분석을 통해 보다 세부적이고 정확한 평가가 필요하다.
이 논문은 선형 함수 근사를 이용한 할인 무한 지평 마르코프 의사결정 프로세스에서 정책 평가 문제를 다룹니다. 온-정책 및 오프-정책 설정 모두에서 최적 선형 계수를 추정하기 위해 필요한 샘플 복잡도의 상한을 제시합니다.