Der Artikel stellt QLLM, eine genaue und effiziente Methode zur Post-Training-Quantisierung mit geringer Bitbreite für große Sprachmodelle (LLMs), vor.
Zunächst wird eine adaptive Kanalzusammenstellung eingeführt, um Aktivierungsausreißer zu unterdrücken. Dazu werden Kanäle mit großen Aktivierungswerten zunächst in mehrere Unterkanäle aufgeteilt, um die Werteverteilung auszugleichen. Anschließend werden ähnliche Kanäle wieder zusammengefasst, um die ursprüngliche Kanalanzahl beizubehalten. Eine adaptive Strategie bestimmt die optimale Anzahl der Unterkanäle für jede Schicht.
Darüber hinaus wird eine effiziente gradientenbasierte Fehlerkorrektur vorgeschlagen, die nur eine kleine Anzahl von niedrigrangigen Gewichten anpasst, während der vorkalibrierte quantisierte Hauptteil des Modells eingefroren bleibt. Dies reduziert den Trainingsaufwand und den Grafikspeicherbedarf erheblich.
Umfangreiche Experimente auf LLaMA-1 und LLaMA-2 zeigen, dass QLLM in der Lage ist, genau quantisierte Modelle effizient zu erstellen. Zum Beispiel kann QLLM das 4-Bit-LLaMA-2-70B-Modell in weniger als 10 Stunden auf einer einzelnen A100-80G-GPU quantisieren und übertrifft damit den vorherigen Stand der Technik um 7,89% bei der durchschnittlichen Genauigkeit über fünf Zero-Shot-Aufgaben.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések