BERTのファインチューニングにおいて、LayerNormが最も重要な構成要素であり、LayerNormのみをファインチューニングすることで、パラメータ数を大幅に削減しつつ、ほぼ同等の性能を達成できることを示した。
LoRA Dropout は、LoRA系の手法における過剰適合のリスクを抑制するための理論的根拠に基づいた枠組みである。ランダムドロップアウトを導入することで、学習過程でのスパース性を高め、経験リスクと一般化リスクのバランスを取ることができる。さらに、推論時のアンサンブル手法により、一般化誤差の上界をさらに引き下げることができる。
パラメータ効率的なファインチューニング(PEFT)手法は、計算コストとメモリ使用量を大幅に削減しながら、性能を維持することができる。
パラメータ調整を現在の層の特徴に適用するだけでなく、次の層のパラメータにも伝播させることで、より効率的で汎用的なファインチューニングを実現できる。
パラメータ効率的なファインチューニング手法HUTは、オリジナルのパラメータとの強い相関を維持しつつ、計算量を大幅に削減できる。