Khái niệm cốt lõi
저차원 적응(LoRA) 기법과 가우시안 확률적 가중치 평균화(SWAG) 방법을 결합하여 대규모 언어 모델의 일반화 성능과 보정 능력을 향상시킬 수 있다.
Tóm tắt
이 논문은 대규모 언어 모델(LLM)의 과도한 자신감과 낮은 보정 문제를 해결하기 위해 저차원 적응(LoRA)과 가우시안 확률적 가중치 평균화(SWAG)를 결합하는 방법을 제안한다.
- LoRA는 모델의 일부 가중치만 미세 조정하여 효율적인 fine-tuning을 가능하게 한다.
- SWAG는 SGD 반복 과정에서 가중치 샘플을 수집하여 가우시안 분포로 근사화함으로써 베이지안 추론을 가능하게 한다.
- 실험 결과, LoRA와 SWAG를 결합한 MultiSWAG 방법이 정확도와 보정 능력 면에서 가장 우수한 성능을 보였다. 특히 Laplace-LoRA와 유사한 수준의 성능을 보이면서도 계산 비용이 훨씬 낮다.
- 또한 MultiSWAG는 분포 변화에 대한 강건성도 보였다.
Thống kê
대규모 언어 모델인 LLaMA-2-7B를 사용하여 실험을 진행했다.
다양한 상식 추론 문제 해결 과제(OBQA, CQA, ARC-E, ARC-C, MMLU)에서 성능을 평가했다.
정확도, 음의 로그 우도, 기대 보정 오차, Brier 점수 등의 지표를 측정했다.
Trích dẫn
"Fine-tuned Large Language Models (LLMs) often suffer from overconfidence and poor calibration, particularly when fine-tuned on small datasets."
"We propose a simple combination of Low-Rank Adaptation (LoRA) with Gaussian Stochastic Weight Averaging (SWAG), facilitating approximate Bayesian inference in LLMs."
"Through extensive testing across several Natural Language Processing (NLP) benchmarks, we demonstrate that our straightforward and computationally efficient approach improves model generalization and calibration."