核心概念
약하게 정렬된 언어 모델의 정렬 신호를 활용하여 강력한 언어 모델의 정렬 능력을 향상시키는 새로운 방법인 약-강 선호도 최적화(WSPO)를 소개합니다.
摘要
약-강 선호도 최적화: 약하게 정렬된 모델에서 보상을 끌어오기
본 연구 논문에서는 약하게 정렬된 언어 모델의 정렬 신호를 활용하여 강력한 언어 모델의 정렬 능력을 향상시키는 새로운 방법인 약-강 선호도 최적화(WSPO)를 소개합니다.
본 연구의 주요 목표는 약하게 정렬된 언어 모델의 정렬 정보를 활용하여 강력한 언어 모델의 정렬 성능을 향상시키는 것입니다. 이를 위해 약한 모델의 정렬 전후 분포 차이를 학습하여 강력한 모델에 전이하는 WSPO 방법을 제안합니다.
WSPO는 강력한 모델과 약한 모델 사이의 로그 확률 분포 거리 차이를 최소화하는 방식으로 작동합니다. 즉, 약한 모델의 정렬 전후 분포 변화를 학습하여 강력한 모델의 정렬 능력을 향상시키는 것입니다.