대화형 AI 모델의 인간 선호도 기반 강화학습 성능을 향상시키기 위해 대조적 보상을 활용하는 방법을 제안한다. 이를 통해 보상 모델의 불완전성을 보완하고 강화학습 과정의 강건성을 높일 수 있다.