Core Concepts
다양한 인간 선호도 데이터로 인해 보상 모델의 성능이 저하되며, 이는 대규모 언어 모델의 정렬 성능에 부정적인 영향을 미친다. 이를 해결하기 위해 다중 목표 보상 학습 방법(MORE)을 제안하여 보상 모델의 보정 성능을 향상시킴으로써 대규모 언어 모델의 정렬 성능을 개선한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 선호도 정렬 문제를 다룹니다. 선호도 정렬은 LLM의 응답이 인간의 가치관(예: 유용성, 무해성)을 따르도록 하는 것을 목표로 합니다.
논문의 주요 내용은 다음과 같습니다:
다양한 인간 선호도 데이터셋을 사용하여 보상 모델(RM)을 학습할 경우, RM의 보정 성능이 저하되는 것을 확인했습니다. 이는 LLM 정렬 성능에 부정적인 영향을 미칩니다.
이를 해결하기 위해 다중 목표 보상 학습 방법(MORE)을 제안했습니다. MORE는 RM의 보정 성능을 향상시켜 LLM 정렬 성능을 개선합니다.
실험 결과, MORE는 다양한 선호도 데이터셋에서 RM의 보정 성능을 크게 향상시켰고, Alpaca-7B 모델의 Helpful&Harmless 선호도 정렬 성능도 개선했습니다.
보상 모델의 보정 오차가 LLM 정렬 성능을 평가하는 핵심 지표가 될 수 있음을 확인했습니다.
Stats
보상 모델의 보정 오차(ECE)가 낮을수록 Alpaca-7B 모델의 Helpful&Harmless 선호도 정렬 성능이 향상된다.
MORE 방법을 적용한 보상 모델은 기존 방법 대비 ECE가 크게 감소했다.
Quotes
"다양한 인간 선호도 데이터로 인해 보상 모델의 성능이 저하되며, 이는 대규모 언어 모델의 정렬 성능에 부정적인 영향을 미친다."
"보상 모델의 보정 오차가 LLM 정렬 성능을 평가하는 핵심 지표가 될 수 있음을 확인했습니다."