이 논문은 대화형 AI 모델의 성능 향상을 위해 보상 모델의 한계를 보완하는 대조적 보상 기법을 제안한다. 기존 강화학습 기반 접근법은 보상 모델의 정확성과 정보성에 크게 의존하지만, 이는 다양한 요인으로 인한 노이즈에 취약하다는 문제가 있다.
제안하는 방법은 두 단계로 구성된다. 첫째, 오프라인 샘플링을 통해 기준 응답들을 수집한다. 둘째, 이 기준 응답들과의 대조를 통해 보상 함수를 수정하여 강화학습 과정에 활용한다. 이를 통해 보상 모델의 불확실성을 감소시키고, 강건성을 높이며, 기준 대비 성능 향상을 장려하고, 과제 난이도에 따라 보상을 조정할 수 있다.
실험 결과, 제안 방법이 다양한 데이터셋에서 기존 접근법 대비 약 20% 이상 향상된 성능을 보였다. 이는 제안 기법이 인간 선호도 기반 대화형 AI 모델 학습에 효과적임을 입증한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문