核心概念
大規模言語モデルの重要なパラメータであるGLU変種のMLPモジュールを、重みの大きさと対応する中間活性化の大きさを考慮したセミ構造化スパース化手法を提案し、従来手法を上回る性能を示した。
要約
本研究では、大規模言語モデルの高速化に向けた新しいスパース化手法「Dependency-aware Semi-structured Sparsity (DaSS)」を提案した。
- 従来のスパース化手法は重みの大きさのみに着目していたが、DaSSは重みの大きさと対応する中間活性化の大きさを組み合わせて重要度を評価する。
- これにより、MLPモジュールの構造的な依存性を考慮したスパース化が可能となり、従来手法よりも高い性能を達成できる。
- 実験では、LLaMA2やMistralなどの大規模言語モデルを用いて、パープレキシティ、常識推論タスク、知識推論タスクなどで評価を行った。
- DaSSは、ハードウェア向けのN:M疎sparse性を達成しつつ、SparseGPTやWandaなどの従来手法を上回る性能を示した。
- さらに、特定の層をスキップしてスパース化することで、知識推論タスクの性能をさらに向上させることができた。
統計
大規模言語モデルLLaMA2-70Bのパープレキシティは、DaSSが4.41、SparseGPTが4.66、Wandaが4.59であった。
LLaMA2-70Bの常識推論タスクの平均正解率は、DaSSが70.39%、SparseGPTが69.80%、Wandaが69.57%であった。
LLaMA2-70Bの知識推論タスクMMMLUの正解率は、DaSSが63.27%、SparseGPTが64.52%、Wandaが62.72%であった。
引用
"DaSSは、ハードウェア向けのN:M疎sparse性を達成しつつ、SparseGPTやWandaなどの従来手法を上回る性能を示した。"
"さらに、特定の層をスキップしてスパース化することで、知識推論タスクの性能をさらに向上させることができた。"