이 논문은 두 가지 주요 언어 모델 정렬 접근법인 강화 학습(RLHF)과 대조 학습 기반 방법(DPO)의 장단점을 분석한다. RLHF는 복잡하고 불안정하며 훈련하기 어려운 반면, DPO는 분포 변화 문제에 취약하다. 이를 해결하기 위해 저자들은 혼합 선호 최적화(MPO)라는 새로운 방법을 제안한다. MPO는 두 단계로 구성된다: 1) 쉬운 데이터 세트에서 DPO 모델 훈련, 2) 어려운 데이터 세트에서 PPO 훈련(DPO 모델을 참조 모델로 사용). 이를 통해 DPO의 장점을 활용하고 RLHF의 단점을 완화할 수 있다. 실험 결과 MPO가 DPO와 PPO를 모두 능가하는 것으로 나타났다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究