核心概念
Efficiently compressing large language models through global pruning with low memory consumption.
摘要
大規模言語モデルの効率的な圧縮を実現するために、AdaGPはグローバルプルーニングを用いて低メモリ消費量で圧縮を行う手法です。従来のグローバルプルーニングのスケーラビリティ問題を巧みに回避し、既存手法の局所的なサブ最適性に対処することで、AdaGPは分野における重要な進歩となっています。高スパース度環境で特に優れたパフォーマンス向上を実現し、パープレキシティを著しく低下させることが可能です。
統計資料
OPT-1.3b (WikiText2: 14.62; PTB: 20.29; C4: 16.07)
OPT-2.7b (WikiText2: 12.47; PTB: 17.97; C4: 14.32)
OPT-6.7b (WikiText2: 10.86; PTB: 15.77; C4: 12.71)
OPT-13b (WikiText2: 10.13; PTB: 14.52; C4: 12.06)
OPT-30b (WikiText2: 9.56; PTB: 14.04; C4: 11.45)
OPT-66b (WikiText2: 9.34; PTB: 13.36; C4: 10.99)
引述
"AdaGP achieves a notable reduction in perplexity, setting a new precedent for model compression."
"Our approach ensures global pruning with low memory consumption, addressing scalability issues and suboptimal solutions of local pruning methods."
"Empirical results demonstrate the efficacy of AdaGP, particularly in high-sparsity regimes where it outperforms current state-of-the-art methods."