Core Concepts
大規模言語モデルの重要な特徴を考慮したプルーニング手法Wandaを提案し、既存手法と比較して優れた性能を示す。
Abstract
本論文では、大規模言語モデル(LLM)のプルーニング手法Wandaを提案している。LLMでは、一部の特徴量が極端に大きな値を持つことが知られており、この特性を考慮したプルーニング手法が重要となる。
Wandaでは、重みの大きさと入力特徴量の大きさの積を重要度指標とし、出力ごとに重要度の低い重みを除去する。この手法は計算コストが低く、重みの更新を必要としない。
実験では、LLaMAおよびLLaMA-2モデルに対してWandaを適用し、ゼロショットタスクとパープレキシティの評価を行った。Wandaは既存の単純な重み絶対値プルーニングを大きく上回り、最先端手法SparseGPTとも匹敵する性能を示した。さらに、Wandaは計算コストが大幅に低いという利点がある。
本研究は、LLMのスパース性を理解し、効率的に圧縮するための重要な知見を提供している。
Stats
LLaMA-7Bモデルの50%スパース化では、パープレキシティが5.68から7.26に悪化した。
LLaMA-2-70Bモデルの50%スパース化では、パープレキシティが3.12から3.98に悪化した。
LLaMA-65Bモデルの2:4構造化スパース化では、線形層の行列乗算が1.54倍高速化した。
Quotes
"As their size increases, Large Languages Models (LLMs) are natural candidates for network pruning methods: approaches that drop a subset of network weights while striving to preserve performance."
"Motivated by the recent observation of emergent large magnitude features in LLMs, our approach prunes weights with the smallest magnitudes multiplied by the corresponding input activations, on a per-output basis."
"Wanda significantly outperforms the established baseline of magnitude pruning and performs competitively against recent method involving intensive weight update."