核心概念
本文提出了一種名為 Quamba 的新型量化方法,專為選擇性狀態空間模型(SSMs)設計,通過將權重和激活量化為 8 位元整數,在保持準確性的同時顯著降低模型大小和延遲,使其適用於資源受限的邊緣設備和雲端部署。
論文資訊
Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, & Diana Marculescu. (2024). Quamba: A Post-Training Quantization Recipe for Selective State Space Models. arXiv:2410.13229v1 [cs.LG].
研究目標
本研究旨在解決將狀態空間模型(SSMs)部署到資源受限的硬體平台上的挑戰,特別是針對選擇性 SSMs 開發一種有效的量化方法。
方法
本文提出了一種名為 Quamba 的 8 位元靜態逐個張量量化方法,用於選擇性 SSMs。
為了提高量化精度,Quamba 抑制了 SSMs 輸入激活中的最大值。
針對 SSMs 輸出激活中的極端異常值,Quamba 使用 Hadamard 變換對激活進行平滑處理。
主要發現
與 FP16 相比,Quamba 將 2.8B 模型的大小減少了近一半。
在 Nvidia Orin Nano 8G 上,Quamba 使生成延遲提高了 1.72 倍,同時在零樣本任務上的平均準確度僅下降了 0.9%。
在量化 Jamba(一種具有 52B 參數的 SSM 風格語言模型)時,僅觀察到準確度下降了 1%。
主要結論
Quamba 是一種有效且可擴展的 SSMs 量化方法,適用於在雲端和邊緣平台上部署各種規模的基於 SSMs 的模型。
意義
本研究為 SSMs 的部署提供了一種實用的解決方案,通過量化技術克服了記憶體和延遲的限制,同時保持了模型的準確性。
局限性和未來研究方向
未來的工作可以探索更低位元的量化技術,以進一步壓縮模型大小和降低延遲。
研究 Quamba 對其他 SSMs 架構的適用性也是一個有價值的方向。
统计
Quamba 將 2.8B 模型的大小從 5.29 GB 減少到 2.76 GB。
在 Nvidia Orin Nano 8G 上,Quamba 將生成延遲提高了 1.72 倍。
在零樣本任務上,Quamba 的平均準確度僅下降了 0.9%。
在量化 Jamba 時,僅觀察到準確度下降了 1%。