이 논문은 대규모 언어 모델(LLM)의 견고성 향상을 위한 새로운 학습 프레임워크를 제안한다.
먼저 LLM의 일관성 문제를 정량적으로 정의하고 분석한다. 현재 LLM은 사소한 지침 변화에도 상당히 불일치한 응답을 생성하는 문제가 있다.
이를 해결하기 위해 제안하는 두 단계 학습 프레임워크는 다음과 같다:
지침 증강 감독 미세 조정(SFT(IA)): 유사한 지침 증강을 통해 모델이 지침을 따르는 일반화 능력을 향상시킨다.
일관성 정렬 학습(CAT): 미묘한 응답 차이를 구분하여 모델이 사람의 기대에 더 잘 부합하는 응답을 생성하도록 한다. 이 과정은 첫 번째 단계에서 학습된 모델의 자체 보상을 활용하여 수행된다.
실험 결과, 제안한 프레임워크를 통해 Vicuna와 LLama2 모델의 일관성과 정확성이 크게 향상되었다. 특히 Vicuna-13B + SFT(IA) + CAT 모델은 GPT-4를 능가하는 성능을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies