선호도 기반 강화학습에서 보상 함수 학습 대신 최적 정책을 직접 학습하는 Contrastive Preference Learning (CPL) 알고리즘을 제안한다. CPL은 최적 이점 함수와 정책 사이의 관계를 활용하여 강화학습 없이도 최적 정책을 학습할 수 있다.