Eine adaptive Kanalzusammenstellung, die die Auswirkungen von Aktivierungsausreißern auf die Quantisierung reduziert, sowie eine effiziente gradientenbasierte Fehlerkorrektur, die die Leistung quantisierter großer Sprachmodelle erheblich verbessert.
OmniQuant ist eine differenzierbare Quantisierungstechnik für große Sprachmodelle, die eine überlegene Leistung in verschiedenen Quantisierungskonfigurationen bei gleichzeitiger Beibehaltung der Effizienz von Post-Training-Quantisierung (PTQ) erreicht.