Der Artikel stellt OmniQuant, eine neue Quantisierungstechnik für große Sprachmodelle (LLM), vor. OmniQuant besteht aus zwei innovativen Komponenten: Learnable Weight Clipping (LWC) und Learnable Equivalent Transformation (LET).
LWC moduliert die Extremwerte der Gewichte, indem es den Clipping-Schwellenwert optimiert. LET befasst sich mit Aktivierungsausreißern, indem es die Herausforderung der Quantisierung von Aktivierungen auf Gewichte verlagert.
OmniQuant verwendet ein blockweises Quantisierungsfehlerminimierungsframework, um die Quantisierungsparameter effizient zu optimieren. Es kann sowohl gewichtsbasierte als auch gewichts-aktivierungs-basierte Quantisierung unterstützen.
Umfangreiche Experimente zeigen, dass OmniQuant die Leistung früherer Methoden in verschiedenen Quantisierungskonfigurationen wie W4A4, W6A6, W4A16, W3A16 und W2A16 übertrifft. Darüber hinaus erweist sich OmniQuant als effektiv bei instruktionsabgestimmten Modellen und liefert bemerkenswerte Verbesserungen bei Inferenzgeschwindigkeit und Speicherreduzierung auf realen Geräten.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Wenqi Shao,M... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2308.13137.pdfDomande più approfondite