Die Studie befasst sich mit der Verbesserung der Leistung von N:M-Sparsität in Convolutional Neural Networks (CNNs). N:M-Sparsität ist ein vielversprechender Ansatz, um einen guten Kompromiss zwischen Leistung und Latenz zu erzielen, indem eine feinkörnigere Sparsität als strukturierte oder unstrukturierte Sparsität erreicht wird.
Die Autoren stellen eine neue Methode namens MaxQ vor, die zwei Hauptmerkmale aufweist:
Darüber hinaus folgt MaxQ einem inkrementellen Pruning-Zeitplan, bei dem der Anteil der N:M-Blöcke schrittweise erhöht wird. Dies ermöglicht es dem Netzwerk, den durch das Pruning verursachten Schaden schrittweise zu heilen und die Leistung deutlich zu verbessern.
Die umfassenden Experimente zeigen, dass MaxQ über verschiedene CNN-Architekturen und Computervision-Aufgaben hinweg konsistente Verbesserungen erzielt. Für die Bildklassifizierung auf ImageNet erreicht MaxQ mit einem 1:16-sparse ResNet50 74,6% Top-1-Genauigkeit, was eine Verbesserung von über 2,8% gegenüber dem Stand der Technik darstellt. Für Objekterkennung und Instanzsegmentierung auf dem COCO-Datensatz kann MaxQ unter 1:4-strukturierter Sparsität vergleichbare Ergebnisse wie das dichte Basismodell erzielen.
Darüber hinaus erweist sich MaxQ als quantisierungsfreundlich, obwohl es einen selbststrukturierten Umparametrisierungsprozess darstellt. Das ResNet50-Modell mit 2:4-Sparsität erreicht bei Verwendung von einfachem PTQ-Verfahren nur einen Genauigkeitsrückgang von 0,5% (77,6% auf 77,1%), was auf die Verteilung der Gewichte von MaxQ zurückzuführen ist.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Jingyang Xia... klo arxiv.org 03-19-2024
https://arxiv.org/pdf/2312.07061.pdfSyvällisempiä Kysymyksiä