Centrala begrepp
大規模言語モデルの層の重要度を評価し、重要度の低い層を削除することで、モデルサイズを大幅に削減しつつ性能を維持する手法を提案する。
Sammanfattning
本研究では、大規模言語モデル(LLM)の層の重要度を評価し、重要度の低い層を削除することで、モデルサイズを大幅に削減しつつ性能を維持する手法を提案している。
具体的には以下の2つのステップから成る:
- 層の重要度評価
- 各層の入出力隠れ状態のコサイン類似度を計算し、重要度の低い層を特定する
- 重要度の低い層が連続して現れる傾向があることを発見
- 軽量モデルによる層の置換
- 削除した層を、単純なMLPモデルで置換することで、性能の劣化を抑える
- MLPモデルは、わずか数万件のデータで十分に学習可能
実験の結果、提案手法は既存の圧縮手法と比べて優れた性能を示し、7Bパラメータのモデルで25%の圧縮率でも92%の分類性能と68%の生成性能を維持できることが確認された。
また、軽量モデルとしてMLPを使うことが最適であり、パラメータ共有型のトランスフォーマーなどは性能が劣ることも示された。
Statistik
大規模言語モデルは多数のパラメータを持つため、ハードウェアの要求が高く、実世界での適用が制限される。
提案手法では、7Bパラメータのモデルで25%の圧縮率でも92%の分類性能と68%の生成性能を維持できる。
Citat
大規模言語モデルの層の中には、入出力の隠れ状態のコサイン類似度が高く、重要度が低いものがある。
重要度の低い層が連続して現れる傾向がある。