本文提出了一種針對混合專家 (MoE) 大型語言模型的剪枝方法 MoE-Pruner,利用路由器權重資訊識別並移除專家層中不重要的權重,實現高效的模型壓縮,並透過專家級知識蒸餾技術恢復剪枝後的模型效能。
本稿では、ルーターの重み情報を活用して重要度の低い重みを特定・削除する新しい枝刈り手法「MoE-Pruner」を提案する。この手法は、大規模言語モデル(LLM)の混合エキスパート(MoE)アーキテクチャに適用され、モデルの性能を維持しながらメモリ消費とエキスパートの冗長性を大幅に削減する。