Core Concepts
인간 선호도 최적화(RLHF) 기법에서 모델이 길이에 편향되어 성능이 저하되는 문제를 해결하기 위한 정규화 기법을 제안한다.
Abstract
이 논문은 인간 선호도 최적화(RLHF) 기법에서 모델이 길이에 편향되어 성능이 저하되는 문제를 다룬다.
RLHF 기법은 최근 대형 언어 모델의 발전에 핵심적인 역할을 해왔지만, 모델이 길이에 편향되는 문제가 있다.
이는 사용자들이 길이가 더 긴 답변을 선호하는 경향 때문이다.
기존 RLHF 기법에서는 이 문제를 해결하기 위한 다양한 접근법이 제안되었지만, 직접 선호도 최적화(DPO) 기법에는 적용되지 않았다.
이 논문에서는 DPO 기법에서 길이 편향 문제를 처음으로 연구하고, 이를 해결하기 위한 정규화 기법을 제안한다.
제안된 정규화 기법을 통해 길이 편향을 효과적으로 제어하면서도 모델 성능을 유지할 수 있음을 보여준다.
특히 GPT4와 같이 길이에 편향된 평가기를 사용할 때에도 길이 보정 기반 성능 향상을 달성할 수 있다.
Stats
선호 답변의 평균 길이는 79.6, 비선호 답변의 평균 길이는 75.7이다.
선호 답변의 중간값 길이는 57.0, 비선호 답변의 중간값 길이는 51.0이다.
선호 답변의 길이 표준편차는 74.0, 비선호 답변의 길이 표준편차는 73.3이다.
Quotes
"모델이 생성한 답변의 길이가 선호/비선호 답변 길이 분포에 비해 두 배 더 길다."
"길이 정규화 DPO 모델은 SFT 모델과 유사한 평균 길이를 유지하면서도 GPT4 평가 기준으로 최대 20% 높은 성능 향상을 달성했다."