Keskeiset käsitteet
Low-Rank Quantization Error Reduction (LQER) enhances large language models' accessibility by combining quantization and low-rank approximation.
Tiivistelmä
この研究では、大規模言語モデルの後段量子化において、低ランク近似と量子化を組み合わせたLow-Rank Quantization Error Reduction(LQER)が導入されました。LQERは、活性化誘発スケール行列を活用して量子化エラーの特異値分布を望ましい分布に整形し、ほぼ損失のないW4A8量子化を可能にします。この研究では、従来の方法と比較して計算パターンが改善され、高精度な重みを収集するためのScatterとGatherプロセスが不要であることが示されています。また、W4A8 LLMsは6つの一般的な下流タスクでほぼ損失のない性能を達成し、先進的な手法よりも1.36倍少ないハードウェアリソースを使用します。
Tilastot
W4A8 LLMs achieve near-lossless performance on six popular downstream tasks.
1.36× fewer hardware resources than the leading state-of-the-art method.
OmniQuant takes 7.3 hours to quantize a LLaMA-30B model with 20 iterations on a single NVIDIA A100 GPU.
Lainaukset
"In this work, we introduce a novel quantized LLM inference framework termed Low-rank Quantization Error Reduction (LQER) which combines quantization and low-rank approximation."
"L2QER achieves nearly lossless perplexity compared to FP16 baseline at a very small k ≈ 64."
"L2QER-MXINT outperforms state-of-the-art sub-8-bit methods by a significant margin."