Der Artikel stellt einen neuartigen Ansatz namens TabConv vor, um die Inferenz von Convolutional Neural Networks (CNNs) durch den Einsatz von Tabellenlookups deutlich zu beschleunigen.
Zunächst wird die Konvolution in einem trainierten CNN-Modell in Matrixmultiplikationen umgewandelt. Diese Matrixmultiplikationen werden dann mithilfe von Produktquantisierung in Tabellenlookups überführt. Um den Genauigkeitsverlust durch die Approximation zu begrenzen, wird eine neuartige Prioritätsmaske-Technik eingeführt, die bestimmte Schichten des Modells von der Approximation ausnimmt und exakt berechnet.
Die Evaluation zeigt, dass TabConv die Rechenoperationen für ResNet-18 auf CIFAR-10, CIFAR-100 und MNIST um 36,5%, 25,8% und 99,4% reduzieren kann, während über 93% der Originalgenauigkeit erhalten bleiben. Für ResNet-34 auf CIFAR-10 und MNIST werden 35,6% und 99,3% der Rechenoperationen eingespart, bei über 93% Genauigkeit. Für das NIN-Modell auf MNIST werden sogar 98,9% der Rechenoperationen eingespart, bei über 81% Genauigkeit.
Insgesamt bietet TabConv einen effektiven Ansatz, um die Inferenzkosten von CNNs deutlich zu reduzieren, bei gleichzeitigem Erhalt der Modellgenauigkeit.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Neelesh Gupt... at arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05872.pdfDeeper Inquiries