Główne pojęcia
마진 기반 손실 함수를 사용하는 언어 모델 정렬 방식은 선호/비선호 응답 간 확률 변화를 독립적으로 제어하지 못하는 '그레디언트 얽힘' 현상으로 인해 의도치 않은 결과를 초래할 수 있다.
Streszczenie
마진 기반 언어 모델 정렬 방식의 그레디언트 얽힘 문제 심층 분석
본 연구 논문에서는 인간 피드백을 통한 강화 학습(RLHF) 기반 언어 모델 정렬 방식, 특히 마진 기반 손실 함수를 사용하는 방식의 근본적인 문제점을 분석하고 그 원인을 심층적으로 파헤친다.
최근 대규모 언어 모델(LLM)의 유용성을 향상시키고 유해성을 완화하기 위해 RLHF 방식이 주요 접근 방식으로 자리 잡았다. 이는 크게 두 단계로 구성된다: (1) 모델에 바람직한 행동을 직접적으로 학습시키는 지도 미세 조정(SFT) 단계, (2) 선호/비선호 응답 쌍을 비교하여 좋은/나쁜 행동의 구분을 학습하는 강화 학습(RL) 단계.
RL 단계에서는 일반적으로 마진 기반 손실 함수를 사용하여 선호하는 응답과 비선호 응답의 점수 차이를 최대화하는 방식으로 모델을 학습한다. 하지만 이러한 마진 기반 방식은 선호/비선호 응답 각각에 대한 이상적인 모델 동작을 명확하게 규정하지 못하는 문제점을 내포하고 있다.
본 논문에서는 마진 기반 방식의 이러한 문제점을 '그레디언트 얽힘' 현상으로 명명하고, 이로 인해 발생하는 두 가지 주요 부작용을 제시한다.
비선호 응답 확률 증가: 마진을 증가시키는 과정에서 비선호 응답 (예: 안전하지 않은 응답)의 확률이 증가할 수 있으며, 이는 잠재적인 안전 정렬 실패로 이어질 수 있다.
선호 응답 확률 감소: 마진 증가와 함께 선호 응답의 확률이 감소할 수 있으며, 이는 해당 응답이 이상적인 경우에도 발생할 수 있다.