이 논문은 대규모 언어 모델의 견고성 향상을 위한 새로운 훈련 프레임워크를 제안한다.
첫 번째 단계에서는 지시문 증강 감독 미세 조정(SFT(IA))을 수행하여 모델의 지시 따르기 일반화 능력을 향상시킨다.
두 번째 단계에서는 일관성 정렬 훈련(CAT)을 통해 모델이 유사한 응답 간의 미묘한 차이를 인식하고 사람의 기대에 더 잘 부합하는 응답을 생성하도록 한다.
이 훈련 과정은 외부 인간 선호 리소스를 참조하지 않고 첫 번째 단계에서 훈련된 모델에서 추론된 자체 보상을 통해 수행된다.
실험 결과, 제안된 훈련 프레임워크를 통해 Vicuna와 Llama 2 모델의 지시 따르기 능력이 크게 향상되었음을 확인할 수 있다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zhao Yukun,Y... kl. arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14221.pdfDybere Forespørgsler