중장기 데이터 기반 강화학습에서 발생할 수 있는 중장기 보상의 heavy-tailed 분포 문제를 해결하기 위해, 중앙값 기반 강건 추정 기법을 활용한 오프라인 정책 평가 및 최적화 방법론을 제안한다.