이 논문은 강화 학습의 두 패러다임인 보상 모델 학습과 직접 선호도 최적화를 체계적으로 비교하고 있습니다. 보상 함수를 모델링하고 정책을 최적화하는 RLHF와 선호도 데이터에 기반한 정책 매개변수 최적화인 DPO를 비교하고 있습니다. 두 패러다임의 통계적 차이를 분석하고, 샘플 크기, 정책 및 보상 클래스 차원, 정규화 온도를 고려하고 있습니다. 또한, 근사 최적화 설정으로 분석을 확장하고, RLHF와 DPO의 지수적으로 감소하는 수렴 속도를 유도하고 있습니다. 논문은 보상 함수가 실현 가능하지 않은 경우를 분석하고, RLHF는 상수 추가 오차를 발생시키는 반면, DPO는 온도를 조정하여 점차 감소하는 갭을 유지한다는 결과를 제시하고 있습니다. 마지막으로, Markov 의사 결정 과정 설정으로 비교를 확장하고 있습니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Andi... alle arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01857.pdfDomande più approfondite