이 논문은 대규모 언어 모델(LLM)을 효율적으로 미세 조정하는 프로펄션 기법을 소개한다. 기존의 미세 조정 방법은 계산 비용이 많이 들고 모델의 사전 학습된 특징을 저하시킬 수 있다는 문제가 있다.
프로펄션은 모델의 출력 벡터를 선별적으로 재조정하여 작업 목표에 맞게 조정할 수 있다. 이를 위해 모델의 각 층에 경량의 학습 가능한 프로펄션 매개변수를 도입한다. 이를 통해 미세 조정 과정에서 업데이트되는 매개변수 수를 크게 줄일 수 있어 과적합 및 기존 지식의 손실을 방지할 수 있다.
이론적 분석에 따르면 프로펄션은 전체 미세 조정의 성능을 거의 근사할 수 있지만 훨씬 적은 매개변수만 업데이트한다. 실험 결과, 프로펄션은 기존 PEFT 기법에 비해 성능이 우수하면서도 훨씬 적은 매개변수를 사용한다. 예를 들어 AdaLoRA에 비해 12배 적은 매개변수를 사용하면서도 더 높은 정확도를 달성했다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Md Kowsher, ... о arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10927.pdfГлибші Запити