Core Concepts
단일 단계 선호도 최적화 알고리즘 ORPO를 제안하여 기존 방식보다 효율적이고 성능이 우수한 선호도 기반 언어 모델을 개발할 수 있음을 보여줌.
Abstract
최근 선호도 정렬 알고리즘은 언어 모델의 성능 향상에 도움이 되지만, 여전히 감독 학습(SFT)이 중요한 역할을 함
SFT 과정에서 선호되지 않는 생성 스타일에 대한 약한 페널티만으로도 선호도 정렬이 가능함을 발견
이를 바탕으로 참조 모델이 필요 없는 단일 단계 선호도 최적화 알고리즘 ORPO를 제안
ORPO는 다양한 크기의 언어 모델에 대해 효과적이며, 기존 방식보다 우수한 성능을 보임
Phi-2 (2.7B), Llama-2 (7B), Mistral (7B) 모델에 ORPO를 적용하여 AlpacaEval2.0에서 최대 12.20%, MT-Bench에서 7.32의 성능을 달성
Stats
선호되는 응답 생성 확률이 선호되지 않는 응답보다 k배 더 높다는 것을 의미하는 odds ratio가 중요한 지표임
선호되는 응답의 log 확률이 선호되지 않는 응답보다 점점 증가하는 것을 확인할 수 있음
Quotes
"ORPO는 참조 모델이 필요 없는 단일 단계 선호도 최적화 알고리즘으로, 기존 방식보다 효율적이고 성능이 우수함"
"ORPO를 통해 Phi-2 (2.7B), Llama-2 (7B), Mistral (7B) 모델의 성능을 크게 향상시킬 수 있었음"