Der Artikel stellt COMQ, einen neuartigen koordinatenweisen Minimierungsalgorithmus für die Post-Training-Quantisierung (PTQ) von konvolutionalen neuronalen Netzen und Transformatoren, vor. COMQ löst die Minimierung des schichtweisen quadratischen Rekonstruktionsfehlers, indem es alle Quantisierungsparameter innerhalb derselben Schicht, einschließlich Gewichte und Gleitkomma-Skalierungsfaktoren, als Variablen in der Fehlerfunktion behandelt.
Ein wichtiges Merkmal von COMQ ist seine Effizienz in jeder Iteration, die nur Skalarprodukte und Rundungsoperationen beinhaltet. Diese Einfachheit unterscheidet COMQ von bestehenden PTQ-Ansätzen und macht es zu einer kostengünstigen Alternative. Bemerkenswert ist, dass der Algorithmus keine Hyperparameter-Abstimmung erfordert, um Spitzenleistungen in Bildklassifizierungsaufgaben zu erzielen.
Die Experimente zeigen, dass COMQ bestehende Methoden übertrifft, insbesondere im Bereich der extrem niedrigen Bitbreite, und hervorragende einheitliche PTQ-Ergebnisse für Vision Transformer auf ImageNet erzielt. Dies unterstreicht die Effektivität von COMQ bei der Erzielung optimaler Quantisierungsergebnisse mit minimalem Rechenaufwand und trägt somit zur Weiterentwicklung von PTQ-Techniken für DNNs bei.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Aozhong Zhan... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07134.pdfYêu cầu sâu hơn