Stable Diffusion 2 模型可以被有效地精簡至 38.5% 的稀疏度,而圖像品質只有極小的損失,這表示文字到圖像模型可以大幅壓縮,並為資源有限的設備帶來新的可能性。
FuseGPT 是一種新的結構化剪枝方法,透過將冗餘的 Transformer 模塊融合到鄰近模塊中,在減少模型大小的同時,最大限度地保留模型效能。
FGP 算法通過結合特徵和梯度信息來評估通道的重要性,從而在保持模型性能的同時有效地壓縮模型。
本文提出了一種名為 Diffusion Product Quantization (DPQ) 的新方法,利用改進的乘積量化技術,在極低的比特深度下壓縮 diffusion 模型,並通過實驗證明了 DPQ 在保持模型生成高質量圖像能力的同時,能有效地將 DiT 模型權重壓縮至 1 位精度。
FGGP 是一種新的非結構化漸進式剪枝方法,透過優先考慮梯度大小和使用固定比率的子集選擇策略,在保持準確性的同時有效地壓縮神經網路。
ZipNN 是一種針對神經網路模型設計的無損壓縮技術,通過分離並壓縮模型參數中的指數部分,可以顯著減少模型大小,特別適用於 BF16 模型,並在乾淨模型上表現更佳。
本文提出了一種新的網路剪枝方法,稱為衰退剪枝法 (DPM),它透過多步驟平滑剪枝和自我校正程序來減輕傳統剪枝方法中常見的精度下降問題。
本文提出了一個名為 MoE-I2 的兩階段壓縮框架,用於減少混合專家 (MoE) 模型的大小和計算成本,同時保持其在各種零樣本任務中的性能。
透過針對修剪任務優化歸因方法(例如分層相關性傳播),可以實現比傳統方法更高的模型壓縮率,同時保持深度神經網路(特別是卷積神經網路和 Transformer)在圖像分類任務中的高性能。
本文提出了一種名為多重移除問題(MRP)的新方法,用於對基礎模型進行剪枝,以在不需重新訓練的情況下實現高準確率。