核心概念
本研究提出了一種名為 NEURONAL 的新型頂層演算法,用於大型語言模型的剪枝,該演算法通過最大化稀疏模型和密集模型之間激活的神經元對齊,在無需重新訓練的情況下,實現高效的模型壓縮。
這篇研究論文介紹了一種名為 NEURONAL 的新型頂層演算法,用於在無需重新訓練的情況下對大型語言模型 (LLM) 進行剪枝。
研究目標
減少大型語言模型 (LLM) 的計算成本,同時盡量減少對效能的影響。
開發一種無需重新訓練或依賴梯度資訊即可提高剪枝效能的頂層演算法。
方法
**神經元對齊:**NEURONAL 通過最大化密集模型和稀疏模型之間激活的神經元對齊來實現剪枝。
**自適應稀疏性分佈:**該演算法自動選擇最佳區塊級和行級稀疏性比率,無需手動調整超參數。
兩階段方法:
**區塊級稀疏性比率:**首先,通過重新分配 Transformer 區塊之間的稀疏性來最大化神經元對齊。
**行級稀疏性比率:**其次,通過調整每個層矩陣中每一行的稀疏性來進一步優化神經元對齊。
主要發現
與統一稀疏性分佈相比,非統一稀疏性分佈可以顯著提高剪枝效能。
現有的基於異常值評分的非統一稀疏性分佈方法(如 OWL)對超參數敏感,而 NEURONAL 通過自適應選擇最佳稀疏性比率克服了這一限制。
NEURONAL 在各種 LLM 模型、剪枝演算法和稀疏性比率上始終優於現有的頂層剪枝技術。
主要結論
NEURONAL 是一種有效的 LLM 剪枝頂層演算法,它通過最大化神經元對齊和自適應稀疏性分佈,在無需重新訓練的情況下實現了顯著的效能提升。
意義
這項研究為高效的 LLM 剪枝提供了一種有前景的新方法,有助於降低 LLM 的計算成本並促進其在資源受限環境中的部署。
局限性和未來研究
未來的工作可以探索將 NEURONAL 應用於其他模型架構(如 CNN)以及多模態任務。
研究 NEURONAL 在極端稀疏性比率(例如,超過 80%)下的效能將是有價值的。
統計資料
本文測試了 4 個不同的 LLM 家族,參數範圍從 7B 到 13B。
研究評估了 3 種不同的高稀疏度值:60%、70% 和 80%。
使用了 3 個語言建模數據集:WikiText2、Colossal Clean Common Crawl (C4) 和 Penn Treebank (PTB)。
評估了 7 個零樣本任務:RTE、WinoGrande、BoolQ、HellaSwag、ARC-e、ARC-c 和 OBQA。