Core Concepts
보상 학습을 통해 대화형 언어 모델을 사용자 선호도에 맞게 효과적으로 미세 조정할 수 있다.
Abstract
이 논문은 대화형 언어 모델(LLM)을 사용자 선호도에 맞게 미세 조정하는 새로운 프레임워크인 보상 학습 기반 정책(RLP)을 제안한다.
기존 RLHF 방식은 보상 모델 학습, 정책 최적화 등의 단계를 순차적으로 수행하지만, 정책 최적화 과정에서 데이터 분포가 변화하여 보상 모델의 성능이 저하되는 문제가 있다.
RLP는 정책 샘플을 활용하여 보상 모델을 온-분포로 유지하는 방식으로, 크게 두 가지 방법을 사용한다:
다중 뷰 학습을 통해 정책 샘플의 강건한 표현을 학습
정책 샘플로부터 합성 선호 데이터를 생성하여 보상 모델 학습에 활용
실험 결과, RLP는 기존 RLHF 방식 대비 우수한 성능을 보였으며, 특히 RLP-SPG 방식이 가장 좋은 결과를 달성했다.
Stats
정책 샘플의 평균 길이는 선호 출력 510자, 비선호 출력 449자로 차이가 크다.
주관적이고 창의적인 지시문은 신뢰도가 낮아 합성 선호 데이터 생성 시 제외된다.
Quotes
"보상 모델의 정확도가 저하되면 이를 활용하여 최적화된 정책이 보상의 차이를 악용할 수 있다."
"반복적으로 새로운 선호 데이터를 수집하면 시스템이 더 복잡해지고 최적화하기 어려워진다."