Concetti Chiave
DAQ 是一種針對大型語言模型的訓練後僅權重量化方法,它通過考慮權重的密度和影響來利用浮點數表示的非均勻特性,從而實現高效的模型壓縮和加速。
論文資訊
標題:DAQ:針對大型語言模型的密度感知訓練後僅權重量化
作者:Yingsong Luo, Ling Chen*
機構:浙江大學計算機科學與技術學院區塊鏈與數據安全國家重點實驗室
研究背景
大型語言模型 (LLM) 在各種自然語言處理任務中表現出色,但由於其龐大的參數量,部署這些模型面臨著硬件資源的挑戰。模型量化是一種有效的模型壓縮方法,可以減少模型的內存佔用和計算成本。訓練後量化 (PTQ) 作為一種無需重新訓練模型的量化方法,在資源受限的環境中尤其具有吸引力。
研究問題
現有的 PTQ 方法通常基於權重或激活的最小值和最大值來確定動態範圍,或者通過截斷異常值來縮小動態範圍,這可能無法充分利用浮點數表示的非均勻特性。
研究方法
為了應對上述問題,本文提出了密度感知訓練後僅權重量化 (DAQ) 方法,該方法包括兩個階段:
密度中心對齊 (DCA):識別高密度權重的中心,並將動態範圍中心化在該點上,以便將高密度權重區域與浮點數高精度區域對齊。
可學習動態範圍調整 (LDRA):根據權重對模型輸出的影響,通過優化量化參數(即比例因子和零點)來調整動態範圍。
主要發現
在 LLaMA 和 LLaMA-2 上的實驗表明,DAQ 在困惑度損失方面始終優於最佳基準方法,在 LLaMA 上平均降低了 22.8%,在 LLaMA-2 上平均降低了 19.6%。
DAQ 在不同模型規模、量化粒度和校準數據集大小下均表現出優於現有方法的性能。
DAQ 可以與現有的僅權重量化方法(如 AWQ)相結合,進一步提高量化性能。
研究意義
DAQ 為浮點數量化提供了一種新的視角,可以作為現有僅權重量化方法的有效補充。通過利用浮點數表示的非均勻特性並考慮權重的密度和影響,DAQ 可以有效提高 LLM 的量化效率和性能。
研究局限與未來方向
DAQ 的計算複雜度高於傳統的 PTQ 方法,特別是在 LDRA 階段。未來可以探索更高效的動態範圍調整方法。
本文主要關注語言建模任務。未來可以進一步評估 DAQ 在其他 NLP 任務上的性能。
Statistiche
DAQ 在 LLaMA 上平均降低了 22.8% 的困惑度損失。
DAQ 在 LLaMA-2 上平均降低了 19.6% 的困惑度損失。
DAQ 使用 2×512 個詞符的校準數據集即可達到 AWQ 使用 16×512 個詞符的校準數據集的性能。