本論文は、大規模言語モデル(LLM)の高速化と軽量化に関する包括的な調査を行っている。
まず、深層学習モデルの圧縮手法の概要を説明する。アーキテクチャプルーニング、量子化、知識蒸留、低ランク近似などの手法が紹介されている。
次に、これらの手法をLLMに適用した研究事例を詳しく解説する。LLM-Pruner、LoRAPrune、FLaPなどのプルーニング手法、GPTQ、AWQなどの量子化手法、TensorGPTやLoSparseなどの低ランク近似手法について、それぞれの特徴と性能を示している。
さらに、システムレベルの最適化手法として、Paged Attention、テンソル並列化、パイプライン並列化、CPU/GPU オフロードなどの手法を紹介する。これらの手法は、LLMの推論速度を大幅に向上させることができる。
実験では、LLaMA-7Bモデルを用いて、上記の圧縮手法と最適化手法を組み合わせて評価を行っている。結果から、FLaPやOmniQuantなどの手法が優れた性能を示すことが分かる。
最後に、LLMの圧縮に関する課題と今後の展望を議論している。大規模な微調整の計算コストの問題、量子化時の推論速度低下の課題、低ランク近似の最適なランク選択の難しさ、バイアスの懸念など、現状の課題を指摘し、それらに対する解決策を提案している。
To Another Language
from source content
arxiv.org
Глибші Запити