Core Concepts
Hessian感度重視混合スパース性剪定に基づく大規模言語モデルの効率向上手法を提案する。
Abstract
大規模な言語モデル(LLMs)は、高い推論レイテンシーにより実世界のアプリケーションでの実用化が妨げられている。本研究では、再トレーニングを必要とせずにLLMsを少なくとも50%のスパース性まで剪定する方法を提案している。この手法は、感度に基づいて適応的にスパース性を割り当て、全体的なスパース性レベルを維持しながら剪定誘発エラーを減らすことができる。さらに、この手法は量子化と互換性があり、LLMsのさらなる圧縮を可能にする。提案された手法は、極めて高いスパース性の場合でもその利点が顕著であり、他の手法よりも優れた結果を示している。
Stats
大規模言語モデル(LLMs)から少なくとも50%のスパース性まで剪定する方法を提案している。
4ビット量子化技術や混合精度量子化技術がメモリコストを16ビットから3〜4ビットに減少させることが可能である。
Quotes
"We propose a method based on Hessian sensitivity-aware mixed sparsity pruning to prune LLMs to at least 50% sparsity without the need of any retraining."
"Quantization methods can be categorized into Post-Training Quantization (PTQ) and Quantization-Aware Training (QAT) approaches."
"Our method is compatible with quantization, enabling further compression of LLMs."