Core Concepts
대규모 언어 모델의 선호도 최적화를 위해 잡음에 강한 새로운 기법인 ROPO를 제안한다. ROPO는 선호도 데이터의 잡음으로 인한 부정적 영향을 효과적으로 억제하여 안정적인 성능을 보장한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 선호도 정렬을 위한 새로운 기법인 ROPO(RObust Preference Optimization)를 제안한다.
선호도 정렬은 LLM이 사용자의 가치관에 부합하는 응답을 생성하도록 하는 것이 목표이다. 기존의 순위 기반 선호도 정렬 방법은 선호도 데이터의 잡음에 취약하다는 문제가 있다.
ROPO는 선호도 데이터의 잡음으로 인한 부정적 영향을 효과적으로 억제하는 새로운 기법이다. 구체적으로 ROPO는 응답 쌍 간 로그-우도 점수 차이를 기반으로 보수적인 가중치를 동적으로 할당하여 잡음이 큰 샘플의 기울기를 억제한다. 이를 통해 잡음 존재 여부와 상관없이 기대 위험의 기울기 방향이 동일하도록 보장한다.
실험 결과, ROPO는 기존 순위 기반 방법들에 비해 다양한 크기의 LLM에서 큰 성능 향상을 보였다. 특히 잡음이 있는 환경에서 ROPO의 우수성이 두드러졌다. 또한 ROPO는 LLM이 생성한 데이터를 활용하는 경우에도 강건한 성능을 보였다.
Stats
선호도 데이터의 레이블 잡음 비율이 20%일 때 ROPO와 DPO의 SFT 모델 대비 승률은 각각 79.36%와 58.90%이다.
선호도 데이터의 레이블 잡음 비율이 40%일 때 ROPO와 DPO의 SFT 모델 대비 승률은 각각 71.19%와 46.74%이다.
Quotes
"ROPO는 잡음에 강한 선호도 정렬 기법으로, 기존 방법들에 비해 다양한 크기의 LLM에서 큰 성능 향상을 보였다."
"ROPO는 선호도 데이터의 잡음으로 인한 부정적 영향을 효과적으로 억제하여 안정적인 성능을 보장한다."