핵심 개념
提出一種利用層級稀疏度調度器的新穎壓縮方法,可以在保持相對較小的準確性損失的情況下,實現大型語言模型超過70%的高壓縮率。
초록
本文提出了一種新的層級稀疏度調度器,用於對大型語言模型(LLM)進行激進的壓縮。
首先,作者分析了之前方法中"按順序逐層剪枝"的假設為何能在選擇性剪枝中取得良好效果。作者發現,這種假設能夠近似地估計所有可能的剪枝掩碼下的權重更新項期望,從而在選擇性剪枝中取得良好的效果。
基於此發現,作者提出了一種基於估計損失的層級稀疏度調度器。具體來說,作者利用逆Hessian矩陣的行來估計每一層的平均剪枝損失,並採用K-means將層級劃分為不同組,從而控制不同層級的稀疏度分佈。這種方法能夠在保持較小準確性損失的情況下,實現超過70%的高壓縮率。
作者在OPT-66B和BLOOM-176B等大型語言模型上進行了實驗,結果顯示該方法優於目前最先進的剪枝技術SparseGPT。此外,該方法還與量化技術兼容,可以進一步壓縮LLM。
통계
在OPT-125M上,我們的方法在70%以上的稀疏度下,perplexity為113.39,優於SparseGPT的232.20。
在OPT-6.7B上,我們的方法在70%以上的稀疏度下,perplexity為19.73,優於SparseGPT的20.55。
在OPT-30B上,我們的方法在70%以上的稀疏度下,perplexity為12.98,優於SparseGPT的13.32。
在OPT-66B上,我們的方法在70%以上的稀疏度下,perplexity為11.65,優於SparseGPT的12.44。
在BLOOM-176B上,我們的方法在70%以上的稀疏度下,perplexity為11.02,優於SparseGPT的11.30。
인용구
"我們提出了一種基於層級損失估計的新穎稀疏度調度器,能夠在保持較小準確性損失的情況下,實現大型語言模型超過70%的高壓縮率。"
"我們的方法在OPT-66B和BLOOM-176B等大型語言模型上的實驗結果顯示,優於目前最先進的剪枝技術SparseGPT。"