준-쌍곡선 할인은 인간의 즉각적인 만족 선호를 모델링하는 데 효과적이지만, 이로 인해 최적 정책이 시간 불일치성을 보일 수 있다. 이를 해결하기 위해 마르코프 완전 균형(MPE)이라는 개념이 도입되었으며, 본 연구에서는 MPE를 찾는 최초의 모델 없는 강화 학습 알고리즘을 제안한다.