核心概念
本文介紹了一種名為雙曼巴 (Bi-Mamba) 的新型模型架構,透過將模型權重二元化,成功地將曼巴 (Mamba) 架構壓縮至一位元表示,同時維持與全精度模型相當的效能,顯著降低了模型儲存空間和計算成本。
論文概述
本論文介紹了一種名為雙曼巴 (Bi-Mamba) 的新型模型架構,旨在透過將模型權重二元化,實現高效能且節省資源的大型語言模型。雙曼巴模型基於曼巴 (Mamba) 架構,這是一種狀態空間模型 (SSM),在處理長文本序列時具有線性複雜度的優勢。
研究背景
大型語言模型 (LLM) 在自然語言處理領域取得了顯著的進展,但其龐大的參數量也帶來了高昂的計算和儲存成本。模型量化是一種有效的壓縮技術,可以將模型權重和激活值表示為低精度數值,從而減少模型大小和計算量。
研究方法
雙曼巴採用了一種名為 FBI-Linear 的模組來實現模型權重的二元化。該模組使用一個由 {1, -1} 組成的二元矩陣和高精度縮放因子來表示線性層。透過在訓練過程中學習這些縮放因子,雙曼巴能夠在保持模型效能的同時實現高壓縮率。
實驗結果
實驗結果表明,雙曼巴在多項語言建模任務上均取得了與全精度模型相當的效能,同時顯著降低了模型儲存空間和計算成本。與其他量化方法相比,雙曼巴在保持模型效能方面表現更佳。
研究結論
本研究提出了一種有效且可擴展的一位元曼巴架構,為設計高效能、低資源消耗的大型語言模型提供了一種新的思路。雙曼巴模型的成功開發,為未來在資源受限環境下部署大型語言模型提供了新的可能性。
統計
在 Mamba-2-2.7B 模型中,部分二元化平均準確率為 53.1,而完全二元化則降至 49.3。
完全二元化的 Bi-Mamba 在所有規模下均展現出最高的壓縮率,實現了超過 80% 的壓縮率。