Core Concepts
대규모 언어 모델을 특정 하위 작업에 적응시키기 위해 모델의 각 계층에 서로 다른 수준의 미세 조정을 적용하는 전략적 점진적 적응 미세 조정 방법을 제안한다.
Abstract
이 논문은 대규모 언어 모델을 특정 하위 작업에 효율적으로 적응시키기 위한 전략적 점진적 적응 미세 조정(SPAFIT) 방법을 제안한다. 기존의 미세 조정 방법은 모든 계층에 동일한 방식으로 적용되었지만, 저자들은 모델의 각 계층이 서로 다른 유형의 언어 지식을 담고 있다는 가설에 기반하여 계층별로 미세 조정 강도를 다르게 적용하는 방법을 제안한다.
SPAFIT 방법은 모델의 계층을 3개의 그룹으로 나누어 관리한다. 첫 번째 그룹의 계층은 완전히 고정되며, 두 번째 그룹의 계층에서는 편향 매개변수만 조정되고, 세 번째 그룹의 계층에서는 더 복잡한 미세 조정 기법(LoRA와 BitFit)이 적용된다.
실험 결과, SPAFIT 모델은 다른 효율적 미세 조정 방법들과 비교하여 성능이 동등하거나 더 우수하면서도 훨씬 적은 수의 매개변수만을 조정하는 것으로 나타났다. 특히 SPAFIT-4-9-I과 SPAFIT-4-9-II 모델이 가장 우수한 성능을 보였다. 이는 모델의 각 계층에 서로 다른 수준의 미세 조정을 적용하는 SPAFIT 방법이 효과적임을 보여준다.
Stats
문장 유사성 작업(MRPC, STS-B, QQP)에서 SPAFIT 모델이 완전 미세 조정 모델을 능가하는 성과를 보였다.
CoLA와 SST-2 작업에서는 완전 미세 조정 모델이 PEFT 모델들을 능가했는데, 이 두 작업은 단일 문장 입력을 다루는 작업이라는 특징이 있다.
SPAFIT-4-9-I과 SPAFIT-4-9-II 모델은 각각 9개 작업 중 6개와 7개 작업에서 최고 성능을 보였다.
Quotes
"대규모 언어 모델을 특정 하위 작업에 적응시키기 위해 모델의 각 계층에 서로 다른 수준의 미세 조정을 적용하는 전략적 점진적 적응 미세 조정 방법을 제안한다."
"SPAFIT 모델은 다른 효율적 미세 조정 방법들과 비교하여 성능이 동등하거나 더 우수하면서도 훨씬 적은 수의 매개변수만을 조정하는 것으로 나타났다."