본 연구 논문에서는 대규모 언어 모델(LLM)을 인간의 선호도에 맞춰 미세 조정하는 새로운 방법인 DRPO(Direct Ranking Preference Optimization)를 제안합니다.
기존의 LLM 선호도 정렬 방법은 주로 쌍으로 이루어진 선호도 데이터를 사용하여 선호하는 응답과 덜 선호하는 응답을 구분하는 데 중점을 두었습니다. 그러나 이러한 방법은 실제 인간의 선호도가 순위 정보로 나타나는 경우가 많다는 점을 간과하고 있습니다. 즉, 단순히 선호도 유무뿐만 아니라 여러 응답 간의 상대적인 선호도 순위를 고려하는 것이 중요합니다.
DRPO는 인간의 선호도 정렬을 순위 학습(LTR) 작업으로 간주하여 순위 기반 선호도 데이터를 활용합니다.
Adaptive Rank Policy Score: 기존의 Policy Reference Ratio 방식은 선호하는 응답의 절대적인 가능성을 직접적으로 최대화하지 않는다는 단점이 있습니다. 이를 해결하기 위해 DRPO는 생성된 시퀀스의 로그-가능성에 초점을 맞춘 Adaptive Rank Policy Score를 사용합니다. 이 점수는 응답의 순위 위치를 기반으로 동적으로 마진을 조정하여 선호하는 응답의 가능성을 최대화하면서도 순위 목록 전체에서 응답의 품질 차이를 효과적으로 반영합니다.
미분 가능한 응답 순위: DRPO는 미분 가능한 정렬 네트워크를 사용하여 응답을 예측 점수를 기반으로 순위를 매깁니다. 이를 통해 LLM을 순위 기반 선호도에 대해 종단 간 미세 조정할 수 있습니다.
미분 가능한 NDCG 손실: DRPO는 순위 품질을 측정하는 데 효과적인 LTR 지표인 NDCG(Normalized Discounted Cumulative Gain)를 최적화합니다. NDCG는 순위 위치에 따라 응답의 중요도를 다르게 평가하여 상위에 있는 응답에 더 높은 가중치를 부여합니다. 그러나 NDCG는 미분이 불가능한 정렬 프로세스를 포함하기 때문에 DRPO는 미분 가능한 정렬 메커니즘을 사용하여 NDCG를 재구성한 diffNDCG(Differentiable NDCG)를 사용합니다.
다양한 데이터셋(Anthropic의 Helpful and Harmless, UltraFeedback, VLFeedback)을 사용한 실험 결과, DRPO는 SFT, DPO, PRO, LiPO 등의 기존 방법보다 우수한 성능을 보였습니다. 특히, DRPO는 GPT-4 Win Rate와 Reward Model Win Rate에서 유의미한 성능 향상을 보였습니다.
DRPO는 순위 기반 선호도 데이터를 활용하여 LLM을 인간의 선호도에 맞춰 효과적으로 미세 조정하는 새로운 방법입니다. DRPO는 기존 방법의 한계를 극복하고 LLM의 성능을 향상시키는 데 기여할 수 있습니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究