이 논문은 대규모 언어 모델을 특정 하위 작업에 효율적으로 적응시키기 위한 전략적 점진적 적응 미세 조정(SPAFIT) 방법을 제안한다. 기존의 미세 조정 방법은 모든 계층에 동일한 방식으로 적용되었지만, 저자들은 모델의 각 계층이 서로 다른 유형의 언어 지식을 담고 있다는 가설에 기반하여 계층별로 미세 조정 강도를 다르게 적용하는 방법을 제안한다.
SPAFIT 방법은 모델의 계층을 3개의 그룹으로 나누어 관리한다. 첫 번째 그룹의 계층은 완전히 고정되며, 두 번째 그룹의 계층에서는 편향 매개변수만 조정되고, 세 번째 그룹의 계층에서는 더 복잡한 미세 조정 기법(LoRA와 BitFit)이 적용된다.
실험 결과, SPAFIT 모델은 다른 효율적 미세 조정 방법들과 비교하여 성능이 동등하거나 더 우수하면서도 훨씬 적은 수의 매개변수만을 조정하는 것으로 나타났다. 특히 SPAFIT-4-9-I과 SPAFIT-4-9-II 모델이 가장 우수한 성능을 보였다. 이는 모델의 각 계층에 서로 다른 수준의 미세 조정을 적용하는 SPAFIT 방법이 효과적임을 보여준다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Samir Arora,... ב- arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00201.pdfשאלות מעמיקות