보상 모델은 언어 모델을 사람의 선호도에 맞추는 RLHF 프로세스의 핵심이지만, 이에 대한 평가가 상대적으로 부족했다. REWARDBENCH는 보상 모델의 다양한 특성을 평가하고 이해하기 위한 벤치마크 데이터셋과 코드베이스를 제공한다.
본 논문은 보상 모델(RM)의 정확도가 높다고 해서 반드시 최적의 정책 모델 성능으로 이어지지는 않는다는 것을 실험적으로 증명하고, 정확도에만 의존한 현재의 평가 방식의 한계점을 지적합니다.