상태 정보만을 활용한 데모 데이터를 통해 각 상태-행동 쌍의 중요도를 간접적으로 추정하여, 이를 기반으로 한 부드러운 가이드 보상 함수를 설계함으로써 스파스 보상 환경에서의 정책 최적화를 달성한다.