Q-DiT 是一種針對擴散模型 Transformer 架構設計的新型訓練後量化方法,透過自動量化粒度分配和動態激活量化技術,在顯著降低模型大小和加速推理速度的同時,最大限度地減少精度損失。
本文介紹了一種名為雙曼巴 (Bi-Mamba) 的新型模型架構,透過將模型權重二元化,成功地將曼巴 (Mamba) 架構壓縮至一位元表示,同時維持與全精度模型相當的效能,顯著降低了模型儲存空間和計算成本。
EfQAT 是一種新的量化感知訓練 (QAT) 方法,透過僅更新模型中最重要的權重來加速訓練過程,從而在保持高準確性的同時顯著提高效率。
MicroScopiQ 是一種新的模型量化技術,它結合了剪枝和異常感知量化,以在保持硬體效率的同時實現高精度。
OneBit 是一種針對大型語言模型 (LLM) 的新型 1 位元模型壓縮框架,旨在在保持模型效能的同時,透過將模型權重矩陣量化為 1 位元,來顯著降低模型部署所需的儲存和計算成本。
本文提出了一種名為 DQRM 的深度量化推薦模型框架,透過量化技術有效壓縮 DLRM 模型大小並提升其訓練效率,同時解決了 DLRM 模型過擬合的問題,最終在 Kaggle 和 Terabyte 資料集上取得了比全精度 DLRM 模型更優的效能。
QuAILoRA 是一種針對 LoRA(低秩自適應)的量化感知初始化方法,它通過減少初始化時的量化誤差,減輕了量化對模型性能的負面影響,從而提高了量化大型語言模型的效能。
本文提出了一種名為 Quamba 的新型量化方法,專為選擇性狀態空間模型(SSMs)設計,通過將權重和激活量化為 8 位元整數,在保持準確性的同時顯著降低模型大小和延遲,使其適用於資源受限的邊緣設備和雲端部署。
DAQ 是一種針對大型語言模型的訓練後僅權重量化方法,它通過考慮權重的密度和影響來利用浮點數表示的非均勻特性,從而實現高效的模型壓縮和加速。
本文提出了一種新的分析框架 QERA,用於解決模型量化過程中低秩誤差重建的最佳化問題,並證明了最小化層輸出誤差比最小化權重近似誤差更有效。