Core Concepts
Eine neuartige und kostengünstige Methode zur signifikanten Verbesserung der Vortrainingsleistung von Masked Image Modeling (MIM)-Ansätzen durch Priorisierung der Tokensalienz.
Abstract
In dieser Arbeit wird eine neuartige Methode namens Saliency-Based Adaptive Masking (SBAM) vorgestellt, die die Vortrainingsleistung von Masked Image Modeling (MIM)-Ansätzen deutlich verbessert, indem sie die Tokensalienz priorisiert.
Der Kern von SBAM ist die Berechnung der "Tokensalienz", die auf den ausgehenden Gewichten der Aufmerksamkeitsmechanismen basiert. Anstatt Tokens zufällig zu maskieren, werden die Tokens mit der höchsten Salienz bevorzugt maskiert. Dadurch wird sichergestellt, dass die für den visuellen Kontext wichtigsten Tokens berücksichtigt werden.
SBAM zeichnet sich durch eine hohe Robustheit gegenüber Schwankungen der Maskierungsrate aus, was ein häufiges Problem bei bestehenden Methoden darstellt. Dies ermöglicht es, eine adaptive Strategie für "maßgeschneiderte" Maskierungsraten für jede Datenstichprobe vorzuschlagen, was mit keiner bestehenden Methode möglich ist.
Darüber hinaus führt SBAM zu einer deutlichen Verbesserung der Vortrainingseffizienz, wie durch höhere Genauigkeit und schnellere Konvergenz gezeigt wird. Die Evaluierung auf dem ImageNet-1K-Datensatz zeigt, dass SBAM den Stand der Technik deutlich übertrifft.
Stats
Die vorgeschlagene SBAM-Methode verbessert die Klassifikationsgenauigkeit auf ImageNet-1K von 84,3% auf 85,1% im Vergleich zum MAE-Basismodell.
SBAM erreicht eine um 3,9 Prozentpunkte höhere lineare Probing-Genauigkeit im Vergleich zum MAE-Basismodell.
Quotes
"Eine neuartige und kostengünstige Methode zur signifikanten Verbesserung der Vortrainingsleistung von Masked Image Modeling (MIM)-Ansätzen durch Priorisierung der Tokensalienz."
"SBAM zeichnet sich durch eine hohe Robustheit gegenüber Schwankungen der Maskierungsrate aus, was ein häufiges Problem bei bestehenden Methoden darstellt."
"SBAM führt zu einer deutlichen Verbesserung der Vortrainingseffizienz, wie durch höhere Genauigkeit und schnellere Konvergenz gezeigt wird."