대규모 언어 모델의 과최적화 문제를 해결하기 위해 불확실성 페널티를 적용한 직접 선호도 최적화 프레임워크를 제안한다.
PRefLexOR는 선호도 최적화와 강화 학습에서 영감을 받은 재귀적 추론을 결합하여 과학적 추론 능력이 향상된 합성 지능을 가능하게 하는 프레임워크입니다.
단일 샘플 비교에 의존하는 기존 방법과 달리, 멀티 샘플 비교를 통한 선호도 최적화는 생성 모델의 다양성, 편향 및 레이블 노이즈에 대한 강건성을 향상시켜 더욱 효과적인 모델 학습을 가능하게 한다.
대규모 언어 모델 (LLM)의 성능을 향상시키기 위해서는 데이터 품질에 따라 β 값을 동적으로 조정하는 β-DPO와 같은 새로운 학습 패러다임이 필요하다.
선호도 피드백을 활용한 언어 모델 학습에서 데이터 품질, 알고리즘 선택, 보상 모델 품질, 정책 학습 프롬프트 순으로 성능에 영향을 미치며, 특히 PPO 알고리즘과 대규모 보상 모델을 활용한 학습 방식이 전반적으로 우수한 성능을 보인다.