Основні поняття
Q-DiT 是一種針對擴散模型 Transformer 架構設計的新型訓練後量化方法,透過自動量化粒度分配和動態激活量化技術,在顯著降低模型大小和加速推理速度的同時,最大限度地減少精度損失。
研究目標
本研究旨在解決擴散模型 Transformer 架構(DiT)在模型量化方面遇到的挑戰,特別是針對 DiT 模型中權重和激活值的顯著空間變異以及跨時間步長的激活值變化,開發一種高效且高精度的訓練後量化(PTQ)方法。
方法
為了應對上述挑戰,本研究提出了 Q-DiT,這是一種新穎的 PTQ 方法,它無縫集成了兩個關鍵技術:
自動量化粒度分配:
採用細粒度的分組量化策略來處理輸入通道中權重和激活值的顯著差異。
利用進化搜索算法為模型不同層級的量化配置分組大小,並使用 Fréchet Inception Distance (FID) 和 Fréchet Video Distance (FVD) 作為指標,將量化效果與生成樣本的視覺質量直接關聯起來,從而實現更有針對性和更有效的量化策略。
動態激活量化:
採用樣本級動態激活量化機制,以適應擴散過程中激活值分佈的變化。
在運行時根據每個樣本和時間步長的激活值動態調整量化參數,從而顯著減少量化誤差,確保高質量的圖像/視頻生成,同時將開銷降至最低。
主要發現
在 ImageNet 和 VBench 數據集上進行的大量實驗表明,Q-DiT 在 W6A8 配置下實現了無損壓縮,在 W4A8 配置下實現了最小化的圖像和視頻生成性能下降,優於現有的 PTQ 方法。
自動量化粒度分配和動態激活量化技術都能有效減少量化誤差,提高生成圖像/視頻的質量。
Q-DiT 在處理高分辨率圖像和視頻生成任務方面表現出色,證明了其在各種應用中的潛力。
意義
本研究為 DiT 模型提出了一種高效且高精度的 PTQ 方法 Q-DiT,顯著降低了 DiT 模型的部署成本,並為其實現更廣泛的應用鋪平了道路。
局限性和未來研究方向
Q-DiT 目前依賴於進化算法來確定最佳分組大小配置,該過程計算成本高且耗時。未來研究可以探索更高效的搜索策略。
未來工作可以進一步研究 Q-DiT 在其他擴散模型架構和下游任務中的應用。
Статистика
在 ImageNet 256×256 數據集上,使用 W4A8 量化配置時,Q-DiT 的 FID 僅增加了 1.09。
在 ImageNet 256×256 數據集上,使用 W6A8 量化配置時,Q-DiT 的 FID 達到 12.21,IS 達到 117.75,接近於全精度模型的性能。
在 ImageNet 256×256 數據集上,使用 W4A8 量化配置時,Q-DiT 的 FID 達到 15.76,IS 達到 98.78,顯著優於其他基線方法。