核心概念
パラメータ調整を現在の層の特徴に適用するだけでなく、次の層のパラメータにも伝播させることで、より効率的で汎用的なファインチューニングを実現できる。
要約
本論文では、パラメータ効率的なファインチューニング(PEFT)の新しい手法であるSynapse & Neuron (SAN)を提案している。SAN は、現在の層の特徴に対する調整を次の層のパラメータにも伝播させることで、より効率的で汎用的なファインチューニングを実現する。
具体的には、SAN は各層の出力に対する学習可能なスケーリング係数を導入し、これを次の層のパラメータにも適用する。これは、生物学的神経ネットワークにおける長期増強(LTP)と長期抑圧(LTD)の現象に着想を得たものである。
SAN の特徴は以下の通り:
- 現在の層の特徴調整を次の層のパラメータにも伝播させることで、より細粒度の調整が可能になる。
- 伝播時の二次的な影響が正則化効果として働き、過学習を防ぐ。
- 既存のPEFT手法が暗黙的に行っていた層間の調整を明示的に行うことで、最適な部分空間の探索を簡略化できる。
SAN は、ViT、Swin Transformer、ConvNeXtなどの様々なバックボーン上で優れた性能を示し、パラメータ効率も高い。これらの結果から、SAN が PEFT の新しい強力なアプローチであることが示された。
統計
学習可能なスケーリング係数γを次の層のパラメータW'に適用することで、より細粒度の調整が可能になる。
γの二次的な影響が正則化効果として働き、過学習を防ぐ。
層間の調整を明示的に行うことで、最適な部分空間の探索が簡略化される。
引用
"パラメータ調整を現在の層の特徴に適用するだけでなく、次の層のパラメータにも伝播させることで、より効率的で汎用的なファインチューニングを実現できる。"
"SAN は、ViT、Swin Transformer、ConvNeXtなどの様々なバックボーン上で優れた性能を示し、パラメータ効率も高い。"