선호도 기반 강화학습에서 보상 함수 학습 대신 최적 정책을 직접 학습하는 Contrastive Preference Learning (CPL) 알고리즘을 제안한다. CPL은 최적 이점 함수와 정책 사이의 관계를 활용하여 강화학습 없이도 최적 정책을 학습할 수 있다.


coremsg

인간-피드백-없이-선호도-기반-학습을-통한-최적-정책-학습


인간 피드백 없이 선호도 기반 학습을 통한 최적 정책 학습