本文提出了一種新的層級稀疏度調度器,用於對大型語言模型(LLM)進行激進的壓縮。
首先,作者分析了之前方法中"按順序逐層剪枝"的假設為何能在選擇性剪枝中取得良好效果。作者發現,這種假設能夠近似地估計所有可能的剪枝掩碼下的權重更新項期望,從而在選擇性剪枝中取得良好的效果。
基於此發現,作者提出了一種基於估計損失的層級稀疏度調度器。具體來說,作者利用逆Hessian矩陣的行來估計每一層的平均剪枝損失,並採用K-means將層級劃分為不同組,從而控制不同層級的稀疏度分佈。這種方法能夠在保持較小準確性損失的情況下,實現超過70%的高壓縮率。
作者在OPT-66B和BLOOM-176B等大型語言模型上進行了實驗,結果顯示該方法優於目前最先進的剪枝技術SparseGPT。此外,該方法還與量化技術兼容,可以進一步壓縮LLM。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zining Zhang... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20094.pdfDybere Forespørgsler