Core Concepts
Durch Hinzufügen eines optimierten Bias-Vektors zu den Ausgaben quantisierter Schichten kann der Quantisierungsausgabefehler effizient minimiert werden, ohne dass eine Feinabstimmung des Modells erforderlich ist.
Abstract
Der Artikel stellt eine neue Methode namens Bias-Kompensation (BC) vor, um den durch Quantisierung verursachten Ausgabefehler in Neuronalen Netzen zu minimieren.
Zunächst wird erläutert, dass Quantisierung zwar die Speichernutzung und Rechenleistung von Neuronalen Netzen reduziert, aber oft zu erheblichen Ausgabefehlern führt, die den Einsatz des Modells behindern. Die meisten bisherigen Methoden versuchen, den nicht-konvexen Quantisierungsprozess zu optimieren, um den Ausgabefehler zu minimieren, was jedoch schwierig zu lösen ist.
Im Gegensatz dazu schlägt BC vor, einen optimierbaren Bias-Vektor direkt zu den Ausgaben der quantisierten Schichten hinzuzufügen, um den Ausgabefehler zu minimieren. Die Autoren beweisen, dass die Optimierung des Bias-Vektors ein konvexes Problem ist und immer eine geringere Ausgabe als die ursprüngliche quantisierte Ausgabe garantiert.
Umfangreiche Experimente mit Vision-Transformer-Modellen und großen Sprachmodellen zeigen, dass BC den Quantisierungsausgabefehler deutlich reduzieren und die Aufgabenleistung der quantisierten Modelle erheblich verbessern kann. Insbesondere ermöglicht BC eine 4-Bit-Quantisierung von ViT-B*, die eine um 36,89% höhere Genauigkeit auf ImageNet-1k erreicht, und verringert die Perplexität von OPT-350M mit 3-Bit-GPTQ um 5,97 auf WikiText2.
Stats
Die Ausgabe der quantisierten Schicht unterscheidet sich um 0,7479 von der Ausgabe der Floating-Point-Schicht.
Die Ausgabe der quantisierten Schicht mit Bias-Kompensation unterscheidet sich nur um 0,6841 von der Floating-Point-Ausgabe.
Quotes
"Durch Hinzufügen eines optimierten Bias-Vektors zu den Ausgaben quantisierter Schichten kann der Quantisierungsausgabefehler effizient minimiert werden, ohne dass eine Feinabstimmung des Modells erforderlich ist."
"Die Optimierung des Bias-Vektors ist ein konvexes Problem und garantiert immer eine geringere Ausgabe als die ursprüngliche quantisierte Ausgabe."