이 논문은 선호도 기반 강화학습(RLHF) 문제를 다룬다. 기존 RLHF 알고리즘은 두 단계로 구성되는데, 첫째 단계에서 인간 선호도를 이용해 보상 함수를 학습하고, 둘째 단계에서 이 보상 함수를 최적화하는 강화학습을 수행한다.
그러나 최근 연구에 따르면 인간의 선호도는 보상 함수의 부분 누적 합이 아닌 최적 이점 함수(또는 음의 후회)에 따라 결정된다. 따라서 보상 함수를 학습하는 것은 잘못된 가정에 기반하며, 강화학습 단계에서 발생하는 최적화 문제로 인해 제한적인 문제 설정에만 적용할 수 있다는 한계가 있다.
이 논문에서는 Contrastive Preference Learning (CPL)이라는 새로운 RLHF 알고리즘을 제안한다. CPL은 최적 이점 함수와 정책 사이의 관계를 활용하여 강화학습 없이도 최적 정책을 직접 학습할 수 있다. 구체적으로 CPL은 선호도 데이터를 이용해 정책의 대조 학습 목적함수를 최적화한다. 이를 통해 CPL은 복잡한 강화학습 문제를 회피하면서도 최적 정책을 학습할 수 있다.
실험 결과, CPL은 기존 RLHF 방법들에 비해 MetaWorld 벤치마크에서 우수한 성능을 보였다. 특히 고차원 이미지 입력 환경에서도 효과적으로 작동하며, 계산 효율성 면에서도 강점을 보였다. 또한 제한된 실제 인간 선호도 데이터에서도 우수한 성능을 보였다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania