본 연구는 오픈 소스 언어 모델의 성능 향상을 위한 새로운 프레임워크 OpenChat을 제안한다. 기존의 감독학습 미세조정(SFT) 방식은 혼합 품질의 데이터를 균등하게 취급하여 성능 저하를 초래할 수 있으며, 강화학습 미세조정(RLFT) 방식은 고품질의 선호도 데이터가 필요하다는 한계가 있다.
OpenChat은 이러한 문제를 해결하기 위해 클래스 조건부 강화학습 기반 미세조정 기법인 C-RLFT를 제안한다. C-RLFT는 전문가 데이터와 비전문가 데이터의 품질 차이를 활용하여 모델 성능을 향상시킨다. 구체적으로 C-RLFT는 데이터 소스에 따른 클래스 정보를 활용하여 클래스 조건부 정책을 학습하고, 이를 기반으로 보상 가중 회귀 문제를 단일 단계 지도학습으로 해결한다. 이를 통해 복잡한 강화학습 과정을 거치지 않고도 혼합 품질 데이터를 효과적으로 활용할 수 있다.
실험 결과, OpenChat의 openchat-13b 모델은 다양한 벤치마크에서 기존 13b 오픈 소스 언어 모델을 크게 능가하는 성능을 보였다. 또한 AGIEval을 통한 일반화 성능 평가에서도 openchat-13b가 가장 우수한 결과를 달성했다. 추가 분석을 통해 C-RLFT의 효과성과 강건성을 입증하였다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Guan Wang,Si... о arxiv.org 03-19-2024
https://arxiv.org/pdf/2309.11235.pdfГлибші Запити