核心概念
GWQ 是一種基於梯度的混合精度後訓練量化方法,通過優先保留對模型預測影響最大的權重(異常值),並以低精度量化剩餘權重,實現了在最小化性能損失的前提下,有效壓縮大型語言模型的大小,提高其推理速度並降低内存佔用。
摘要
論文概述
本篇論文介紹了一種名為 GWQ 的新型大型語言模型(LLM)量化方法。GWQ 是一種基於梯度的後訓練混合精度量化方法,旨在解決 LLMs 部署過程中面臨的内存佔用和推理速度挑戰。
研究背景
LLMs 在處理複雜語言任務方面表現出色,但其龐大的參數量為其在邊緣設備上的部署和應用帶來了巨大挑戰。將 LLMs 壓縮到低比特可以使其在資源受限的設備上運行,但通常会导致性能下降。
GWQ 方法
GWQ 方法的核心思想是利用梯度信息識別模型中對預測影響最大的權重,即異常值。具體來說,GWQ 會根據校準集上的梯度大小選擇前 1% 的權重作為異常值,並以 FP16 精度保留這些異常值,而其餘 99% 的非異常值權重則以低比特格式存儲(例如 4 比特或 3 比特)。
GWQ 優勢
- 高效的異常值定位: GWQ 利用梯度信息高效地定位模型中的異常值,相較於基於 Hessian 矩陣的方法,GWQ 能更準確地識別對模型預測影響最大的權重。
- 較低的精度損失: 通過優先保留異常值,GWQ 在量化過程中能最大程度地減少精度損失,實驗結果表明,GWQ 在多個語言模型和任務上均取得了比其他量化方法更低的 PPL 和更高的準確率。
- 較低的校準成本: GWQ 只需要少量校準數據即可完成異常值的識別,相較於需要大量數據的量化感知訓練方法,GWQ 的校準成本更低。
- 適用於多模態模型: GWQ 同樣適用於多模態模型的量化,實驗結果顯示,GWQ 量化的多模態模型在多項零樣本任務上均取得了優於其他方法的結果。
實驗結果
論文在多個語言模型和多模態模型上進行了實驗,實驗結果表明,GWQ 在 WikiText2、C4 和 RefCOCO 等數據集上均取得了優於其他量化方法的結果。此外,GWQ 還能在保證模型性能的前提下,實現約 1.2 倍的推理速度提升,並顯著降低内存佔用。
總結
GWQ 是一種基於梯度的後訓練混合精度量化方法,通過優先保留異常值,GWQ 能在最小化性能損失的前提下,有效壓縮 LLMs 的大小,提高其推理速度並降低内存佔用。實驗結果表明,GWQ 在多個語言模型和多模態模型上均取得了優於其他量化方法的結果。
統計資料
GWQ 選擇前 1% 的權重作為異常值。
其餘 99% 的非異常值權重則以低比特格式存儲。
GWQ 能在保證模型性能的前提下,實現約 1.2 倍的推理速度提升。
引述
"GWQ is the first post-training quantization approach to utilize gradients to locate outliers in pre-trained models."
"GWQ outshines the current state-of-the-arts method SPQR on the wikitext and C4 datasets."
"GWQ achieves 1.2× inference speedup in comparison to the original model, and effectively reduces the inference memory."