Core Concepts
혼합 선호 최적화(MPO)는 강화 학습(RLHF)과 대조 학습 기반 방법(DPO)의 장점을 결합하고 단점을 완화하는 새로운 정렬 방법이다.
Abstract
이 논문은 두 가지 주요 언어 모델 정렬 접근법인 강화 학습(RLHF)과 대조 학습 기반 방법(DPO)의 장단점을 분석한다. RLHF는 복잡하고 불안정하며 훈련하기 어려운 반면, DPO는 분포 변화 문제에 취약하다. 이를 해결하기 위해 저자들은 혼합 선호 최적화(MPO)라는 새로운 방법을 제안한다. MPO는 두 단계로 구성된다: 1) 쉬운 데이터 세트에서 DPO 모델 훈련, 2) 어려운 데이터 세트에서 PPO 훈련(DPO 모델을 참조 모델로 사용). 이를 통해 DPO의 장점을 활용하고 RLHF의 단점을 완화할 수 있다. 실험 결과 MPO가 DPO와 PPO를 모두 능가하는 것으로 나타났다.
Stats
데이터 세트의 50% 이상의 샘플이 보상 점수 차이가 [0-1] 범위에 있어 유사한 품질을 가지고 있다.
보상 모델의 정확도는 HH-RLHF 데이터에서 73%, TLDR 데이터에서 78%이다.
Quotes
"RLHF는 복잡하고, 불안정하며, 훈련하기 어렵다."
"DPO와 다른 대조 학습 기반 방법은 분포 변화 문제에 취약할 수 있다."