Основні поняття
圧縮方法によってはサブグループのパフォーマンスが低下しないことがある。圧縮後のモデルサイズだけでなく、圧縮方法も重要である。
Анотація
本研究では、18種類の圧縮手法をBERTモデルに適用し、サブグループロバスト性への影響を分析した。
主な結果は以下の通り:
- MultiNLIとSCOTUSでは、モデルサイズが小さくなるにつれ、平均精度とサブグループ最低精度(Worst-group Accuracy, WGA)が低下する傾向にある。
- 一方、CivilCommentsでは、ほとんどの圧縮モデルでWGAが改善される。これは、BERTBaseがデータに過剰適合していたため、モデルサイズの減少が正則化効果として働いたためと考えられる。
- 同じパラメータ数のモデルでも、圧縮手法の違いによってパフォーマンスが異なる。事前学習後の量子化のみでは、サブグループロバスト性が低い。
- タスクの複雑さ(クラス数)はサブグループロバスト性に大きな影響を与えないようだ。MultiNLIのバイナリタスクでも、WGAの傾向は変わらなかった。
- 圧縮によって必ずしも少数派サブグループのパフォーマンスが犠牲にされるわけではない。CivilCommentsでは、むしろ少数派サブグループのパフォーマンスが改善された。
以上より、圧縮言語モデルのサブグループロバスト性は、圧縮手法に大きく依存することが示された。
Статистика
圧縮前のBERTBaseのサイズは438.01MB、パラメータ数は109Mである。
最小のBERTTinyのサイズは17.56MB、パラメータ数は4Mである。