Core Concepts
AFLoRA는 사전 학습된 모델의 매개변수를 효율적으로 미세 조정하여 우수한 성능을 달성할 수 있는 기술이다. 이를 위해 저차원 적응 경로를 점진적으로 동결하는 방식을 제안하여 계산 비용과 과적합을 줄일 수 있다.
Abstract
이 논문은 대규모 언어 모델의 매개변수 효율적 미세 조정 기술인 AFLoRA를 소개한다. 기존의 LoRA와 ELoRA 기술의 한계를 분석하고, 이를 개선한 AFLoRA 기술을 제안한다.
AFLoRA는 사전 학습된 모델의 가중치 텐서에 병렬로 저차원 행렬을 추가하는 방식으로 구성된다. 이때 저차원 행렬은 다운 프로젝션, 업 프로젝션, 그리고 특징 변환 벡터로 구성된다.
AFLoRA는 이러한 저차원 경로의 매개변수를 점진적으로 동결하는 방식을 제안한다. 이를 위해 매개변수의 변화량을 나타내는 "동결 점수"를 정의하고, 이 점수를 기반으로 동결 스케줄을 적용한다. 이를 통해 계산 비용과 과적합을 줄일 수 있다.
실험 결과, AFLoRA는 GLUE 벤치마크에서 기존 기술 대비 평균 0.85% 향상된 성능을 보이면서도 9.5배 적은 평균 학습 매개변수를 사용할 수 있다. 또한 기존 기술 대비 최대 1.86배 빠른 실행 시간과 2.96배 적은 FLOPs를 달성할 수 있다.
Stats
대규모 언어 모델의 미세 조정 시 매개변수 수를 9.5배 줄일 수 있다.
AFLoRA는 기존 기술 대비 최대 1.86배 빠른 실행 시간과 2.96배 적은 FLOPs를 달성할 수 있다.
GLUE 벤치마크에서 기존 기술 대비 평균 0.85% 향상된 성능을 보인다.
Quotes
"AFLoRA는 사전 학습된 모델의 매개변수를 효율적으로 미세 조정하여 우수한 성능을 달성할 수 있는 기술이다."
"AFLoRA는 저차원 경로의 매개변수를 점진적으로 동결하는 방식을 제안하여 계산 비용과 과적합을 줄일 수 있다."