핵심 개념
대규모 언어 모델을 특정 과제에 미세 조정하면 일반적인 문맥 학습 성능이 저하되는데, 이는 주로 모델이 과제 형식에 과도하게 특화되기 때문이다. 이를 해결하기 위해 프롬프트 튜닝과 모델 튜닝의 두 단계로 구성된 ProMoT 기법을 제안한다. ProMoT은 모델의 일반화 성능을 크게 향상시키면서도 특정 과제의 성능도 유지할 수 있다.
초록
이 논문은 대규모 언어 모델(LLM)의 미세 조정 과정에서 발생하는 문제점을 다룬다. 미세 조정 후 모델의 일반적인 문맥 학습 성능이 크게 저하되는데, 이는 모델이 특정 과제의 형식에 과도하게 특화되기 때문이다.
저자들은 이 문제를 해결하기 위해 ProMoT이라는 두 단계 미세 조정 기법을 제안한다. 첫 번째 단계에서는 모델을 고정한 채 추가적인 프롬프트 매개변수만을 튜닝하여 과제 형식을 학습한다. 두 번째 단계에서는 이 프롬프트를 고정한 채 모델 자체를 튜닝한다.
실험 결과, ProMoT은 기존 미세 조정 기법에 비해 특정 과제에 대한 성능은 유지하면서도 다양한 과제에 대한 일반화 성능을 크게 향상시킬 수 있음을 보여준다. 특히 의미적으로 관련된 과제 간에도 성능 향상이 관찰되었다. 또한 ProMoT은 다중 과제 미세 조정에도 효과적으로 적용될 수 있다.
통계
미세 조정 후 mT5 모델의 RTE 과제 정확도는 92.06%에 달한다.
미세 조정 후 mT5 모델의 WMT14 En-Fr 번역 BLEU 점수는 41.80이다.
인용구
"Even the largest and most advanced LLMs leave a lot to be improved. Grounding and eliminating hallucinations (Maynez et al., 2020), reasoning and logical clarity (Creswell & Shanahan, 2022), mathematics (Brown et al., 2020; Noorbakhsh et al., 2021) are just a few examples where LLMs still lag behind the best human performances, or in some cases, the fine-tuned performances of the same model."
"When faced with hundreds of downstream tasks and even unknown tasks, we expect to have a single fine-tuned model that is both superior on supervised fine-tuned tasks and general unseen tasks."