核心概念
本文提出了一種名為AQLM的新方法,通過擴展經典的加法量化(AQ)方法來實現大型語言模型的極端壓縮,在2位元壓縮下顯著優於現有最佳方法。
摘要
本文提出了一種名為AQLM的新方法,用於實現大型語言模型的極端壓縮。AQLM擴展了經典的加法量化(AQ)方法,通過兩個創新來實現更高的壓縮效果:
- 將AQ的MAP-MRF優化問題改為實例感知,考慮層校準輸入和輸出激活。
- 在層級優化的基礎上,增加了一個高效的層內塊調優技術,使用校準數據對多個層的量化參數進行聯合優化。
AQLM在2位元壓縮下顯著優於現有最佳方法,同時在3-4位元壓縮範圍內也有較大優勢。此外,AQLM還提供了高效的GPU和CPU實現,在大幅減少內存占用的同時,還能達到與浮點基線相當或更好的推理速度。
統計資料
在LLAMA 2 7B模型上,2位元AQLM的Wiki2困惑度為6.59,而2位元QuIP#為8.22。
在LLAMA 2 13B模型上,2位元AQLM的Wiki2困惑度為5.60,而2位元QuIP為13.48。
在LLAMA 2 70B模型上,2位元AQLM的Wiki2困惑度為3.94,而2位元QuIP為5.90。
引述
"AQLM是第一個在3位元以下實現帕累托最優的算法。"
"AQLM可以在大幅減少內存占用的同時,達到與浮點基線相當或更好的推理速度。"