Core Concepts
QuaRot ist ein neues Quantisierungsverfahren, das große Sprachmodelle einschließlich aller Gewichte, Aktivierungen und KV-Caches in 4 Bits quantisieren kann, ohne die Leistung zu beeinträchtigen.
Abstract
QuaRot ist ein neues Quantisierungsverfahren, das große Sprachmodelle (LLMs) effizient verarbeiten kann, indem es Rotationstransformationen verwendet. QuaRot rotiert LLMs so, dass Ausreißer aus dem versteckten Zustand entfernt werden, ohne die Ausgabe zu ändern. Dies ermöglicht eine effizientere Quantisierung.
Die Kernpunkte sind:
Anwendung von Hadamard-Transformationen auf die Gewichtsmatrizen, um Ausreißer in den Aktivierungen zu unterdrücken
Zusätzliche Anwendung von Hadamard-Transformationen auf die Aufmerksamkeitskomponente, um Ausreißer in den Schlüsseln und Werten zu entfernen
Vollständige 4-Bit-Quantisierung aller Gewichte, Aktivierungen und KV-Caches ohne Beibehaltung höherer Genauigkeit
Auf dem LLAMA2-70B-Modell wird eine Perplexität von maximal 0.29 auf WikiText-2 erreicht und 99% der Zero-Shot-Leistung beibehalten.
Stats
Die Aktivierungen am Eingang des FFN-Blocks im LLAMA2-7B-Modell im zehnten Layer haben ohne Verarbeitung durch QuaRot große Ausreißer, die durch die Rotationstransformation von QuaRot vollständig entfernt werden.
Quotes
Keine relevanten Zitate gefunden.