Core Concepts
쌍대 선호도 데이터를 활용하여 언어 모델의 성능을 향상시키는 새로운 방법인 쌍대 Cringe 손실을 제안한다.
Abstract
이 논문은 대규모 언어 모델의 성능 향상을 위한 새로운 방법인 쌍대 Cringe 손실을 소개한다. 기존의 Cringe 손실은 긍정적 예제와 부정적 예제를 활용하여 언어 모델을 학습하는 방법이었다. 이 논문에서는 이를 쌍대 선호도 데이터에 적용할 수 있도록 확장하였다.
쌍대 Cringe 손실은 두 개의 응답 중 선호되는 응답과 선호되지 않는 응답 사이의 확률 차이를 활용한다. 선호되는 응답의 확률을 높이고 선호되지 않는 응답의 확률을 낮추는 방식으로 학습을 진행한다. 이 과정에서 선호도 차이가 충분히 큰 경우에는 Cringe 손실을 적용하지 않아 모델 용량을 효율적으로 활용할 수 있다.
또한 이 논문에서는 반복적 학습 방식을 제안한다. 초기 모델을 사용하여 새로운 응답을 생성하고, 이를 보상 모델을 통해 평가하여 선호도 데이터를 확장한다. 이렇게 확장된 데이터로 모델을 다시 학습하는 과정을 반복하여 성능을 향상시킨다.
실험 결과, 쌍대 Cringe 손실은 반복 감소 및 AlpacaFarm 벤치마크에서 기존 최신 방법들을 능가하는 성능을 보였다. 또한 반복적 학습 방식이 성능 향상에 중요한 역할을 하는 것으로 나타났다.
Stats
반복 감소 실험에서 쌍대 Cringe 손실은 Repeat@3-gram 지표에서 인간 수준에 가까운 성능을 보였다.
AlpacaFarm 벤치마크에서 쌍대 Cringe 손실은 PPO, DPO 등 최신 방법들을 능가하는 54.7%의 승률을 달성했다.
Quotes
"쌍대 Cringe 손실은 간단히 구현할 수 있고 효율적으로 학습할 수 있으므로, 지침 조정 및 기타 정렬 작업에 강력한 후보가 될 것이다."