Best-of-N 샘플링은 언어 모델을 인간 선호도에 정렬하는 효과적인 전략이지만, 보상 해킹 문제에 취약하다. 이 연구에서는 근접성 정규화를 도입한 정규화된 Best-of-N (RBoN) 샘플링을 제안하여 보상 해킹 문제를 완화한다.