SELF-JUDGE는 온-폴리시 학습을 통해 대형 언어 모델을 효과적으로 정렬하는 새로운 방법론을 제시합니다.
혼합 선호 최적화(MPO)는 강화 학습(RLHF)과 대조 학습 기반 방법(DPO)의 장점을 결합하고 단점을 완화하는 새로운 정렬 방법이다.
전통적인 인간 피드백 강화 학습 접근법은 인간 선호도의 비이성성과 비전이성을 포착하는 데 한계가 있다. 이 논문에서는 자기 플레이 기반 방법을 제안하여 언어 모델 정렬 문제를 두 플레이어 간 상수 합 게임으로 정식화하고, 이의 내쉬 균형 정책을 찾는다.