Keskeiset käsitteet
본 연구는 대화형 언어 모델의 인간 선호도 정렬을 위해 토큰 또는 구 수준의 세부적인 품질 신호를 활용하는 새로운 접근법을 제안한다.
Tiivistelmä
본 논문은 대화형 언어 모델의 인간 선호도 정렬을 위한 새로운 접근법인 FIGA를 소개한다. FIGA는 기존의 모방 학습(SFT)과 강화 학습(RLHF)의 장점을 결합하여, 토큰 또는 구 수준의 세부적인 품질 신호를 활용한다.
구체적으로, FIGA는 다음과 같은 두 가지 주요 기여를 한다:
초기 응답과 수정된 응답을 쌍으로 구성한 정제된 정렬 데이터셋(SPA)을 구축한다.
초기 응답과 수정된 응답의 대조를 통해 얻은 세부적인 품질 신호를 활용하는 새로운 손실 함수를 고안한다.
실험 결과, FIGA는 다양한 벤치마크에서 기존 방법들을 능가하는 성능을 보였다. 특히 초기 감독 미세 조정 모델 대비 3.2점, 강력한 PPO 방법 대비 1.8점 향상된 성과를 달성했다.
Tilastot
초기 응답의 평균 보상 점수는 -1.07이고, 수정된 응답의 평균 보상 점수는 1.78이다.
초기 응답에서 수정된 응답으로 변경하는 데 평균 39.38개의 편집 작업이 필요했다.
Lainaukset
"본 연구는 대화형 언어 모델의 인간 선호도 정렬을 위해 토큰 또는 구 수준의 세부적인 품질 신호를 활용하는 새로운 접근법을 제안한다."
"FIGA는 기존의 모방 학습(SFT)과 강화 학습(RLHF)의 장점을 결합하여, 토큰 또는 구 수준의 세부적인 품질 신호를 활용한다."