이 연구는 언어 모델 정렬을 위한 Best-of-N (BoN) 샘플링의 한계점인 보상 해킹 문제를 해결하기 위해 정규화된 Best-of-N (RBoN) 샘플링을 제안한다.
BoN 샘플링은 N개의 응답을 생성하고 프록시 보상 모델에 따라 최고 점수의 응답을 선택한다. 그러나 프록시 보상 모델이 실제 목표와 완벽하게 일치하지 않기 때문에, 보상 모델을 최적화하는 것이 실제 목표를 최적화하지 않을 수 있다.
이를 해결하기 위해 RBoN은 프록시 보상 모델 점수와 근접성 정규화 항의 합을 최대화한다. RBoN은 KL 발산 기반 RBoNKL과 Wasserstein 거리 기반 RBoNWD의 두 가지 변형을 제안한다. RBoNWD는 Wasserstein 거리가 자체적으로 효과적인 최적화 목표이므로 정규화 강도 선택에 덜 민감하다.
실험 결과, RBoN은 프록시 보상 모델과 실제 목표 간의 상관관계가 낮을 때 BoN보다 우수한 성능을 보인다. 또한 RBoNWD를 사용하여 생성된 선호 데이터셋으로 학습한 DPO 모델이 BoN으로 생성된 데이터셋으로 학습한 DPO 모델보다 우수한 성능을 보인다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yuu Jinnai,T... : arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01054.pdfDaha Derin Sorular