Concepts de base
大型語言模型 (LLM) 在推理過程中只需激活一小部分關鍵神經元(稱為核心神經元),就能在不損害效能的情況下顯著提高推理速度。
參考文獻:
Wang, Q., Vahidian, S., Ye, H., Gu, J., Zhang, J., & Chen, Y. (2024). CoreInfer: Accelerating Large Language Model Inference with Semantics-Inspired Adaptive Sparse Activation. arXiv preprint arXiv:2410.18311.
研究目標:
本研究旨在解決大型語言模型 (LLM) 推理過程中的計算成本和記憶體需求問題,目標是在不降低效能的前提下加速 LLM 推理。
方法:
本研究提出了一種名為 CoreInfer 的新型稀疏推理策略,該策略基於句子級別的激活稀疏性,無需額外的 MLP 預測器。
該方法首先為每個句子定義一組核心神經元,這些神經元代表 LLM 處理該句子所需的最重要神經元。
為了預測句子的核心神經元,本研究探索了句子核心神經元与其語義之間的關係,發現核心神經元在穩定性和相似性方面都與句子的語義密切相關。
基於此發現,本研究提出了兩種基於語義的方法來預測核心神經元,分別是穩定性引導預測和相似性引導預測。
主要發現:
實驗證明,僅使用一小部分核心神經元就能夠在不損害效能的情況下完成 LLM 推理任務。
核心神經元的穩定性和相似性與句子的語義密切相關。
CoreInfer 在各種生成任務中均未降低效能,並且在 NVIDIA GPU 上實現了 10.3 倍的加速。
主要結論:
CoreInfer 是一種有效的 LLM 推理加速方法,它通過利用句子級別的激活稀疏性和語義信息來減少計算成本和記憶體需求。
核心神經元的概念為理解 LLM 的內部工作機制提供了新的視角。
意義:
本研究為加速 LLM 推理提供了一種新的思路,並為開發更輕量級和高效的 LLM 模型奠定了基礎。
局限性和未來研究方向:
未來可以進一步探索更精確的核心神經元預測方法。
可以研究 CoreInfer 在其他類型神經網路模型上的應用。
Stats
在 NVIDIA TITAN XP GPU 上,與 Huggingface 和 PowerInfer 相比,CoreInfer 分別實現了 10.33 倍和 2.72 倍的加速。
對於資訊提取和問答等較簡單的任務,只需不到 20% 的神經元就能達到與原始模型相當的效能。
翻譯任務則需要大約 40% 的神經元才能達到類似的結果。