核心概念
本文提出了一個名為 MoE-I2 的兩階段壓縮框架,用於減少混合專家 (MoE) 模型的大小和計算成本,同時保持其在各種零樣本任務中的性能。
研究目標:
本研究旨在解決混合專家 (MoE) 大型語言模型 (LLM) 的參數冗餘問題,提出一個通用的端到端壓縮框架 MoE-I2,以減少模型大小、提高推理效率,同時保持模型性能。
方法:
MoE-I2 框架包含兩個主要階段:
專家間剪枝 (Inter-Expert Pruning):
分析每一層的重要性,並根據整體剪枝率為每一層分配不同的剪枝率。
利用層級基因搜索 (Layer-wise Genetic Search) 和塊級 KT 感受野 (Block-wise KT-Receptive Field) 方法,有效地識別和剪枝對預測損失影響最小的專家組合。
專家內分解 (Intra-Expert Decomposition):
分析剩餘專家的重要性,並根據整體壓縮率為每個專家分配不同的秩。
對每個專家內的參數進行低秩分解,以進一步壓縮模型大小。
主要發現:
MoE 模型中不同層的重要性存在差異,例如 DeepSeek-V2-Lite 模型中,越深的層越重要。
與現有的 MoE 模型壓縮方法相比,MoE-I2 框架在保持模型性能的同時,可以顯著減少模型參數數量。
實驗結果表明,MoE-I2 框架可以將 MoE 模型的專家參數數量減少 50% 以上,同時保持模型在各種零樣本任務中的性能。
主要結論:
MoE-I2 框架是一個有效的 MoE 模型壓縮框架,可以顯著減少模型大小和計算成本,同時保持模型性能。
局限性:
由於計算資源的限制,本研究尚未在更大的 MoE 模型(如 Mixtral-8×22B 和 DeepSeek-V2)上進行測試。
未來研究方向:
在更大的 MoE 模型上測試 MoE-I2 框架的有效性。
探索其他模型壓縮技術,例如量化和知識蒸餾,以進一步提高 MoE 模型的壓縮率。
統計資料
Mixtral-8×7B 模型共有 470 億個參數,在推理過程中激活 130 億個參數。
Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 模型分別具有 143 億和 160 億個參數。
在專家剪枝階段,使用從 C4 數據集中隨機抽取的 2048 個數據作為校準數據。
在專家分解階段,使用從 Alpaca 數據集中隨機抽取的 2048 個數據作為校準數據。
在微調階段,使用 Alpaca 作為微調訓練集,共計約 5 萬個樣本。