이 논문은 대규모 언어 모델을 특정 하위 작업에 효율적으로 적응시키기 위한 전략적 점진적 적응 미세 조정(SPAFIT) 방법을 제안한다. 기존의 미세 조정 방법은 모든 계층에 동일한 방식으로 적용되었지만, 저자들은 모델의 각 계층이 서로 다른 유형의 언어 지식을 담고 있다는 가설에 기반하여 계층별로 미세 조정 강도를 다르게 적용하는 방법을 제안한다.
SPAFIT 방법은 모델의 계층을 3개의 그룹으로 나누어 관리한다. 첫 번째 그룹의 계층은 완전히 고정되며, 두 번째 그룹의 계층에서는 편향 매개변수만 조정되고, 세 번째 그룹의 계층에서는 더 복잡한 미세 조정 기법(LoRA와 BitFit)이 적용된다.
실험 결과, SPAFIT 모델은 다른 효율적 미세 조정 방법들과 비교하여 성능이 동등하거나 더 우수하면서도 훨씬 적은 수의 매개변수만을 조정하는 것으로 나타났다. 특히 SPAFIT-4-9-I과 SPAFIT-4-9-II 모델이 가장 우수한 성능을 보였다. 이는 모델의 각 계층에 서로 다른 수준의 미세 조정을 적용하는 SPAFIT 방법이 효과적임을 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Samir Arora,... lúc arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00201.pdfYêu cầu sâu hơn