Effiziente Kompression von Tiefenlernmodellen durch quantisierungsbewusstes Training
Wir stellen eine neuartige Normalisierungstechnik namens Layer-Batch-Normalisierung (LBN) vor, die unabhängig von der Mini-Batch-Größe ist und keine rechenintensiven Erwartungswertberechnungen während der Inferenz erfordert. Basierend darauf entwickeln wir eine Methode namens "Magic for the age of Quantized DNNs" (MaQD), die LBN, Gewichtsstandardisierung, skalierte Rundungsclip-Funktionen und Ersatzgradienten kombiniert, um quantisierte Tiefenlernmodelle mit minimalem Genauigkeitsverlust zu trainieren.