Core Concepts
대규모 언어 모델의 일관성 정렬을 통해 지시 따르기 능력을 향상시킬 수 있다.
Abstract
이 논문은 대규모 언어 모델의 견고성 향상을 위한 새로운 훈련 프레임워크를 제안한다.
먼저 지시 증강 감독 미세 조정 단계에서는 원래 지시문을 다양한 방식으로 바꾸어 모델이 유사한 지시에 일반화되도록 한다.
다음으로 일관성 정렬 훈련 단계에서는 모델이 생성한 응답들 간의 미묘한 차이를 인식하고 사람의 기대에 더 잘 부합하는 응답을 생성하도록 한다.
이 과정에서 외부 인간 선호 자원이나 보상 모델을 참조하지 않고 모델 자체의 자기 보상을 활용한다.
실험 결과 제안한 훈련 프레임워크를 통해 Vicuna와 LLama2 모델의 지시 따르기 능력이 크게 향상되었다.
Stats
현재 대규모 언어 모델의 일관성 점수(CR)는 0.6492~0.8390 수준이다.
제안한 훈련 방법을 적용한 Vicuna-13B 모델의 ROUGE-1 점수는 0.4683으로 개선되었다.
Quotes
"최근 문헌은 이 일관성 문제를 탐구했지만, 체계적인 분석과 해결책은 여전히 부족하다."
"우리는 지시 증강 감독 미세 조정과 일관성 정렬 훈련으로 구성된 새로운 훈련 프레임워크를 제안한다."