이 논문은 대규모 언어 모델(LLM)의 보상 과최적화(ROO) 문제를 해결하기 위한 새로운 접근법인 시연 기반 강화 학습(RCfD)을 제안한다.
ROO는 LLM을 강화 학습으로 미세 조정할 때 발생하는 문제로, 언어 다양성 감소, 비자연스러운 언어 패턴 생성, 의미론 및 구문 변경 등의 문제를 야기한다. 기존 접근법은 KL 정규화를 추가하거나 선호도 최적화(DPO)를 사용하여 이 문제를 해결하려 했지만, 여전히 한계가 있었다.
RCfD는 인간 시연 데이터와 보상 모델을 활용하여 LLM의 보상 목적을 재보정한다. 구체적으로 RCfD는 주어진 프롬프트에 대해 LLM의 출력과 시연 데이터의 보상 사이의 거리를 최소화하는 것을 목표로 한다. 이를 통해 LLM이 보상 모델을 악용하는 것을 방지하고 더 자연스럽고 다양한 언어 생성을 촉진한다.
실험 결과, RCfD는 기존 최적화 기법과 비교해 성능이 유사하면서도 ROO를 완화할 수 있음을 보여준다. 또한 다중 보상 설정에서도 RCfD가 효과적으로 작동하여, 복잡한 보상 구조에서도 안정적인 성능을 보인다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Mathieu Rita... kl. arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19409.pdfDybere Forespørgsler