Core Concepts
LoRAとガウス確率重み平均化(SWAG)を組み合わせることで、大規模言語モデルの汎化性能と較正性を向上させることができる。
Abstract
本研究では、大規模言語モデル(LLM)の過信と較正不良の問題に取り組むため、Low-Rank Adaptation(LoRA)とガウス確率重み平均化(SWAG)を組み合わせた手法を提案している。
LoRAは、パラメータ効率的なファインチューニング手法であり、LLMの重みを凍結したうえで低ランクの行列を導入することで、効率的にファインチューニングを行うことができる。一方、SWAGは、確率的勾配降下法の軌跡からガウス分布を近似的に推定し、ベイズ推論を可能にする手法である。
本研究では、LoRAとSWAGを組み合わせることで、LLMの汎化性能と較正性を向上させることができることを示している。特に、MultiSWAGと呼ばれる手法は、より複雑な手法であるLaplace-LoRAと比較しても遜色ない性能を発揮している。
また、提案手法はOODデータに対しても頑健性を示しており、エントロピーベースの不確実性推定手法によってOODサンプルを効果的に検出できることが確認されている。
Stats
提案手法のMultiSWAGは、OBQA、CQA、ARC-Eの各タスクにおいて最も低いNLLを達成している。
MultiSWAGはARC-Cタスクでも2番目に低いNLLを示している。
MultiSWAGはBrier scoreでも最も良い結果を示している。
Quotes
"Fine-tuned Large Language Models (LLMs) often suffer from overconfidence and poor calibration, particularly when fine-tuned on small datasets."
"We propose a simple combination of Low-Rank Adaptation (LoRA) with Gaussian Stochastic Weight Averaging (SWAG), facilitating approximate Bayesian inference in LLMs."
"Through extensive testing across several Natural Language Processing (NLP) benchmarks, we demonstrate that our straightforward and computationally efficient approach improves model generalization and calibration."