Core Concepts
상태 기반 중요도 샘플링 기법은 중요도 가중치 계산에서 "무시할 수 있는 상태"를 제거함으로써 분산을 줄일 수 있다.
Abstract
이 논문은 오프-정책 평가를 위한 새로운 기법인 상태 기반 중요도 샘플링(State-based Importance Sampling, SIS)을 제안한다.
기존의 중요도 샘플링 기법은 높은 분산으로 인해 성능이 저하되는 문제가 있었다.
SIS는 중요도 가중치 계산에서 "무시할 수 있는 상태"를 제거함으로써 분산을 줄일 수 있다.
두 가지 방법을 제안하여 무시할 수 있는 상태를 식별한다: 공분산 검정 기반 방법과 Q-값 기반 방법.
SIS를 기존 기법들(일반 중요도 샘플링, 가중 중요도 샘플링, 결정별 중요도 샘플링, 증분 중요도 샘플링, 이중 강건 오프-정책 평가, 정상 상태 밀도비 추정)에 적용하여 실험한 결과, 일관되게 분산 감소와 정확도 향상을 보였다.
Stats
상태 공간 S, 행동 공간 A, 보상 함수 r, 전이 확률 T로 정의되는 유한 수평 무할인 마르코프 의사결정 과정(MDP)을 고려한다.
평가 정책 πe의 기대 반환을 πb 정책의 샘플로부터 추정하는 것이 오프-정책 평가의 목표이다.
중요도 샘플링 추정기의 분산은 수평 H에 지수적으로 의존하는 문제가 있다.
Quotes
"상태 기반 중요도 샘플링은 중요도 가중치 계산에서 "무시할 수 있는 상태"를 제거함으로써 분산을 줄일 수 있다."
"실험 결과, 상태 기반 기법들은 일관되게 분산 감소와 정확도 향상을 보였다."