核心概念
연합 학습 환경에서 언어 모델을 효율적으로 미세 조정하기 위해 가중치 분해 기반의 FeDeRA 방법을 제안한다. FeDeRA는 기존 LoRA 방법의 성능 저하 문제를 해결하여 비 IID 데이터 환경에서도 우수한 성능을 달성한다.
摘要
이 논문은 연합 학습 환경에서 언어 모델을 효율적으로 미세 조정하는 FeDeRA 방법을 제안한다.
연합 학습은 데이터를 공유하지 않고 모델 정보만을 공유하여 학습을 수행하는 방식이다. 하지만 대규모 언어 모델을 연합 학습에 적용할 경우 계산 및 통신 비용이 크게 증가하는 문제가 있다.
이를 해결하기 위해 파라미터 효율적인 미세 조정(PEFT) 기법이 제안되었다. 대표적인 PEFT 기법인 LoRA는 성능이 우수하지만, 비 IID 데이터 환경에서 성능이 크게 저하되는 문제가 있다.
FeDeRA는 이 문제를 해결하기 위해 LoRA의 어댑터 모듈 초기화 방식을 개선한다. 사전 학습된 가중치 행렬에 대한 SVD 분해를 통해 주요 성분을 추출하여 어댑터 모듈을 초기화한다. 이를 통해 비 IID 데이터 환경에서도 안정적인 성능을 달성할 수 있다.
실험 결과, FeDeRA는 다양한 NLP 태스크에서 기존 PEFT 기법들을 능가하는 성능을 보였으며, 전체 미세 조정 대비 95% 이상의 학습 시간 단축을 달성했다. 이를 통해 FeDeRA가 연합 학습 환경에서 언어 모델을 효율적으로 미세 조정할 수 있음을 보였다.
統計資料
연합 학습 환경에서 FeDeRA는 FedFT 대비 학습 시간을 95.9%, 97.9%, 96.9% 단축했다.
FeDeRA는 DeBERTaV3 모델에 대해 FedFT 대비 학습 시간을 97.3%, 96.5%, 96.5% 단축했다.
引述
"FeDeRA uses the same adapter module as LoRA. However, the difference lies in FeDeRA's initialization of the adapter module by performing Singular Value Decomposition (SVD) on the pre-trained matrix and selecting its principal components."
"Compared to FedFT, FeDeRA reduces the training time by 95.9%, 97.9%, 96.9% and 97.3%, 96.5%, 96.5% respectively on three tasks using RoBERTa and DeBERTaV3."