Core Concepts
대규모 언어 모델을 인간 선호도와 일치시키기 위해 간단하면서도 효과적인 대조 학습 프레임워크를 제안한다. 이 프레임워크는 데이터의 내재적 품질을 고려하여 노이즈를 평가하고 동적으로 학습 과정을 조정하며, 쌍대 대조 손실과 적응형 지도 미세 조정 손실을 활용하여 인간 선호도와의 정렬을 향상시킨다.
Abstract
이 논문은 대규모 언어 모델(LLM)을 인간 선호도와 일치시키기 위한 간단하면서도 효과적인 대조 학습 프레임워크(CLHA)를 제안한다.
CLHA는 다음과 같은 핵심 구성 요소를 포함한다:
보상 재평가 전략: 데이터의 내재적 품질을 고려하여 노이즈를 평가하고 동적으로 학습 과정을 조정한다.
쌍대 대조 손실: 긍정적(선호) 및 부정적(비선호) 샘플의 생성 확률 차이를 적절하게 조절하여 인간 선호도와의 정렬을 향상시킨다.
적응형 지도 미세 조정 손실: 노이즈가 있는 인간 선호 데이터를 배제하여 정렬 성능을 높인다.
실험 결과, CLHA는 널리 사용되는 "Helpful and Harmless" 데이터셋에서 보상 모델 점수, 자동 평가, 인간 평가 측면에서 우수한 성능을 보였다. 이는 CLHA가 인간 선호도 정렬을 위한 효과적인 프레임워크임을 입증한다.
Stats
인간 선호 데이터에는 노이즈가 포함될 수 있으며, 이는 모델 학습에 부정적인 영향을 미칠 수 있다.
노이즈가 있는 데이터는 인간 선호도를 정확하게 반영하지 못할 수 있다.
Quotes
"인간 선호도와 일치하도록 LLM을 정렬하는 것은 이들이 사용자에게 유익하고 이해할 수 있는 방식으로 동작하도록 보장하는 데 필수적이다."
"RLHF는 고유한 복잡성과 학습 난이도로 인한 지속적인 과제에 직면해 왔다."