المفاهيم الأساسية
FuseGPT 是一種新的結構化剪枝方法,透過將冗餘的 Transformer 模塊融合到鄰近模塊中,在減少模型大小的同時,最大限度地保留模型效能。
الملخص
FuseGPT:透過可學習層融合技術壓縮生成式預訓練 Transformer 模型
這篇研究論文介紹了 FuseGPT,一種用於結構化剪枝的新方法,旨在提高生成式預訓練 Transformer (GPT) 模型在資源受限環境中的部署效率。FuseGPT 專注於有效地回收和融合冗餘的 Transformer 模塊,解決了剪枝後維持高效能的關鍵挑戰。
本研究旨在解決大型語言模型 (LLM) 的部署挑戰,特別是在資源受限的環境中。作者認為,雖然 LLM 在各種任務中表現出色,但其龐大的規模和複雜性阻礙了它們在現實世界中的廣泛應用。因此,本研究的目標是開發一種模型壓縮技術,在保持 LLM 效能的同時,減少其規模和計算需求。
FuseGPT 採用一種新穎的「巨觀影響 (MI)」指標來評估模塊移除的長期影響,確保更明智、更有效的剪枝過程。與僅評估局部變化的現有方法不同,MI 考慮了模塊移除對整個模型推論的影響。透過將不重要的模塊整合到鄰近模塊中,FuseGPT 保留了寶貴的預訓練知識,從而最大限度地減少了效能下降。此外,FuseGPT 採用可學習層融合技術,將冗餘模塊的參數與鄰近模塊的參數融合,並透過知識蒸餾來恢復效能。這種方法確保了即使在顯著的模型壓縮下也能保持高準確度。