Grunnleggende konsepter
大規模基盤モデルのファインチューニングにおいて、離散フーリエ変換を用いることで、パラメータ数を大幅に削減しつつ、同等以上の性能を達成できる。
Sammendrag
本論文は、大規模基盤モデルのファインチューニングにおいて、パラメータ数を大幅に削減する手法を提案している。具体的には、LoRAなどの従来手法とは異なり、重み変化を空間領域の行列として扱い、その周波数領域の係数のみを学習する手法「FourierFT」を提案している。
FourierFTでは、まず共通の周波数エントリーを乱数で選択し、各層でその位置の係数のみを学習する。これにより、LoRAに比べて大幅にパラメータ数を削減できる。
実験では、自然言語理解、自然言語生成、命令チューニング、画像分類などの様々なタスクで、LoRAと同等以上の性能を、LoRAの6~9%のパラメータ数で達成できることを示している。特に、大規模モデルほど、FourierFTの優位性が顕著になることが分かった。
また、周波数バイアスの影響や、パラメータ数とパフォーマンスの関係、フーリエ基底の表現力についても分析を行っている。
Statistikk
LoRAは、RoBERTa Baseで0.3Mのパラメータ数に対し、FourierFTは0.024Mのパラメータ数で同等の性能を達成した。
LoRAは、RoBERTa Largeで0.8Mのパラメータ数に対し、FourierFTは0.048Mのパラメータ数で同等の性能を達成した。
LLaMA2-7Bモデルのファインチューニングでは、LoRAが33.5Mのパラメータ数に対し、FourierFTは0.064Mのパラメータ数で優れた性能を示した。
ViT Baseモデルのファインチューニングでは、LoRAが581Kのパラメータ数に対し、FourierFTは72Kのパラメータ数で同等の性能を達成した。
Sitater
"FourierFT can always achieve comparable or even better performance than LoRA, with about 6.0%, 9.4%, 0.2% and 9.2% of LoRA's trainable parameters for these 4 tasks, respectively."
"Notably, when we increase the parameter count of FourierFT to 41.1% (ViT Base) and 30.6% (ViT Large) of LoRA's, it can outperform LoRA by 3.5% and 2.0% respectively."