Keskeiset käsitteet
본 논문에서는 인간의 선호도 데이터에서 투표 수를 활용하여 언어 모델의 성능을 향상시키는 새로운 방법론인 VPO(Vote-based Preference Optimization) 프레임워크를 제안합니다.
본 연구는 인간의 선호도 데이터를 사용하여 언어 모델을 학습하는 데 있어 기존 방법들의 한계점을 지적하고, 이를 개선하기 위해 투표 수를 활용하는 새로운 방법론인 VPO(Vote-based Preference Optimization) 프레임워크를 제안합니다.
기존 방법의 문제점
기존의 RLHF(Reinforcement Learning from Human Feedback)나 DPO(Direct Preference Optimization)와 같은 방법들은 인간의 선호도를 이진 분류로 단순화하여 모델을 학습시키는 경향이 있었습니다. 그러나 인간의 선호도는 본질적으로 주관적이며, 모든 쌍별 생성을 단순히 좋거나 나쁘다고 분류하기 어려운 경우가 많습니다.
VPO 프레임워크의 등장
VPO는 베이지안 MMSE(Minimum Mean Square Error) 추정기를 사용하여 대상 선호도 확률을 모델링함으로써 기존 방법들의 한계를 극복합니다. 이를 통해 모델은 명확한 선호도를 보이는 사례와 논란의 여지가 있는 사례를 구분하여 학습할 수 있습니다.
투표 수 활용: VPO는 각 응답이 받은 투표 수를 기반으로 대상 선호도 확률을 추정합니다. 이는 다수의 평가자가 참여하는 데이터셋에서 특히 유용하며, 명확한 선호도를 보이는 응답에 더 높은 가중치를 부여하여 모델 학습의 효율성을 높입니다.
베이지안 MMSE 추정기: VPO는 베이지안 MMSE 추정기를 사용하여 투표 데이터의 불확실성을 고려합니다. 이는 특히 투표 수가 적거나 의견이 분분한 경우에 유용하며, 모델이 과적합되는 것을 방지하고 일반화 성능을 향상시킵니다.
다양한 선호도 최적화 알고리즘에 적용 가능: VPO는 DPO, IPO(Identity Preference Optimization) 등 다양한 선호도 최적화 알고리즘에 적용될 수 있는 유연한 프레임워크입니다.