핵심 개념
Best-of-N 샘플링은 언어 모델을 인간 선호도에 정렬하는 효과적인 전략이지만, 보상 해킹 문제에 취약하다. 이 연구에서는 근접성 정규화를 도입한 정규화된 Best-of-N (RBoN) 샘플링을 제안하여 보상 해킹 문제를 완화한다.
초록
이 연구는 언어 모델 정렬을 위한 Best-of-N (BoN) 샘플링의 한계점인 보상 해킹 문제를 해결하기 위해 정규화된 Best-of-N (RBoN) 샘플링을 제안한다.
BoN 샘플링은 N개의 응답을 생성하고 프록시 보상 모델에 따라 최고 점수의 응답을 선택한다. 그러나 프록시 보상 모델이 실제 목표와 완벽하게 일치하지 않기 때문에, 보상 모델을 최적화하는 것이 실제 목표를 최적화하지 않을 수 있다.
이를 해결하기 위해 RBoN은 프록시 보상 모델 점수와 근접성 정규화 항의 합을 최대화한다. RBoN은 KL 발산 기반 RBoNKL과 Wasserstein 거리 기반 RBoNWD의 두 가지 변형을 제안한다. RBoNWD는 Wasserstein 거리가 자체적으로 효과적인 최적화 목표이므로 정규화 강도 선택에 덜 민감하다.
실험 결과, RBoN은 프록시 보상 모델과 실제 목표 간의 상관관계가 낮을 때 BoN보다 우수한 성능을 보인다. 또한 RBoNWD를 사용하여 생성된 선호 데이터셋으로 학습한 DPO 모델이 BoN으로 생성된 데이터셋으로 학습한 DPO 모델보다 우수한 성능을 보인다.
통계
프록시 보상 모델과 실제 목표 간의 상관관계가 낮을수록 RBoN이 BoN보다 우수한 성능을 보인다.
RBoNWD는 정규화 강도 선택에 덜 민감하다.
RBoNWD로 생성된 선호 데이터셋으로 학습한 DPO 모델이 BoN으로 생성된 데이터셋으로 학습한 DPO 모델보다 우수한 성능을 보인다.
인용구
"Best-of-N (BoN) sampling with a reward model has been shown to be an effective strategy for aligning Large Language Models (LLMs) to human preferences at the time of decoding."
"A common solution to prevent reward hacking in preference learning techniques is to optimize a reward using proximity regularization (e.g., KL regularization), which ensures that the language model remains close to the reference model."
"RBoNWD is a combination of two effective objectives. Therefore, we expect the performance of RBoNWD to be less sensitive to the choice of β."