핵심 개념
BERTのファインチューニングにおいて、LayerNormが最も重要な構成要素であり、LayerNormのみをファインチューニングすることで、パラメータ数を大幅に削減しつつ、ほぼ同等の性能を達成できることを示した。
초록
本論文では、BERTモデルの各構成要素がファインチューニング時にどのように変化するかを分析し、LayerNormが最も大きな変化を受けることを明らかにした。
さらに、LayerNormのパラメータのみをファインチューニングすることで、他の手法と同等の、あるいはそれ以上の性能を達成できることを示した。
具体的には以下の通り:
- BERTモデルの各構成要素の変化を分析した結果、LayerNormが最も大きな変化を受けることが分かった。
- LayerNormのみをファインチューニングする手法を提案し、他の手法(Bitfit、ランダム選択)と比較したところ、LayerNormのみのファインチューニングでほぼ同等の性能が得られた。
- LayerNormのパラメータの中でも重要な部分を選択的にファインチューニングすることで、パラメータ数を大幅に削減しつつ、ほぼ同等の性能を達成できることを示した。
- LayerNormの中でも最終層のLayerNormに重要な情報が集中していることが分かった。
- LayerNormのバイアス項の方が重要度が高いことが分かった。
통계
BERTモデルの全パラメータ数は333,581,314個である。
Bitfitは274,434個のパラメータを、LayerNormは51,202個のパラメータを使用する。
인용구
"LayerNormは、BERTモデルの中で最も重要な構成要素の1つである。"
"LayerNormのみをファインチューニングすることで、他の手法と同等の、あるいはそれ以上の性能を達成できる。"
"LayerNormのパラメータの中でも重要な部分を選択的にファインチューニングすることで、パラメータ数を大幅に削減しつつ、ほぼ同等の性能を達成できる。"