Core Concepts
강화 학습 과정에서 정책 모델의 출력 분포가 변화함에 따라 보상 모델의 구분 능력이 저하되는 문제를 해결하기 위해, 메타 학습을 활용하여 보상 모델을 새로운 분포에 맞게 정렬하는 방법을 제안한다.
Abstract
이 논문은 강화 학습에서 보상 모델의 성능 저하 문제를 해결하기 위한 방법을 제안한다. 강화 학습 과정에서 정책 모델의 출력 분포가 변화하면 보상 모델이 응답의 미묘한 차이를 구분하지 못하게 된다. 또한 특정 분포의 데이터로 학습된 보상 모델은 분포가 다른 데이터에 대해 일반화하기 어렵다.
이를 해결하기 위해 저자들은 메타 학습 기반의 보상 모델 학습 방법 MetaRM을 제안한다. MetaRM은 보상 모델이 원래 데이터 분포에서의 손실을 최소화하면서도 변화된 분포의 데이터에 대한 구분 능력을 최대화하도록 학습한다. 이를 통해 보상 모델이 변화된 환경 분포에 적응할 수 있게 된다.
실험 결과, MetaRM은 반복적인 강화 학습 최적화 과정에서 보상 모델의 구분 능력을 유지하여 언어 모델의 성능을 지속적으로 향상시킬 수 있었다. 또한 특정 분포의 데이터로 학습된 보상 모델도 분포가 다른 데이터에 대해 효과적으로 적용할 수 있었다.
Stats
강화 학습 과정에서 정책 모델의 출력 분포 변화에 따라 보상 모델의 응답 구분 능력이 감소한다.
특정 분포의 데이터로 학습된 보상 모델은 분포가 다른 데이터에 대해 일반화하기 어렵다.
Quotes
"강화 학습 과정에서 정책 모델의 출력 분포가 변화함에 따라 보상 모델이 응답의 미묘한 차이를 구분하지 못하게 된다."
"특정 분포의 데이터로 학습된 보상 모델은 분포가 다른 데이터에 대해 일반화하기 어렵다."