이 논문은 대화형 언어 모델의 자기 개선 능력을 향상시키는 새로운 방법인 PIT(ImPlicit Self-ImprovemenT)를 제안한다. 기존의 프롬프팅 기반 자기 개선 방법은 명시적이고 상세한 평가 기준이 필요하지만, PIT는 인간 선호도 데이터만으로도 암묵적으로 자기 개선 목표를 학습할 수 있다.
구체적으로 PIT는 강화 학습 기반 인간 피드백(RLHF) 학습 목표를 재정의한다. 기존 RLHF는 주어진 입력에 대한 응답 품질을 최대화하지만, PIT는 참조 응답과의 품질 차이를 최대화하도록 학습한다. 이를 통해 PIT는 인간 선호도에 더 잘 부합하는 응답을 생성할 수 있다.
실험 결과, PIT는 프롬프팅 기반 자기 개선 방법보다 우수한 성능을 보였다. 특히 PIT는 명시적인 평가 기준 없이도 인간 선호도에 부합하는 응답을 생성할 수 있었다. 또한 PIT는 커리큘럼 강화 학습을 통해 단계적으로 자기 개선 능력을 향상시킬 수 있었다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Ziqi Wang,Le... pada arxiv.org 03-18-2024
https://arxiv.org/pdf/2310.00898.pdfPertanyaan yang Lebih Dalam