Alapfogalmak
Die Architektur von Convolutional Neural Networks (CNNs) kann als Initialisierungsverzerrung in Vision Transformers (ViTs) interpretiert werden. Durch eine strukturierte Initialisierung der Aufmerksamkeitskarten in ViTs können die induktiven Voreinstellungen von CNNs eingebettet werden, ohne die architektonische Flexibilität von Transformers zu beeinträchtigen.
Kivonat
Der Artikel argumentiert, dass die architektonische Verzerrung, die CNNs inhärent ist, als Initialisierungsverzerrung in ViTs interpretiert werden kann. Dies ist eine wichtige Erkenntnis, da sie ViTs in die Lage versetzt, bei kleinen Datensätzen genauso gut abzuschneiden, während sie ihre Flexibilität für großskalige Anwendungen beibehalten.
Die Autoren machen zwei Hauptbeobachtungen:
Zufällige Impulsfilter können in CNNs eine vergleichbare Leistung wie gelernte Filter erreichen. Dies legt nahe, dass der Nutzen von CNNs hauptsächlich in ihrer Konvolutionsstruktur und nicht in den genauen Filtergewichten liegt.
Die Aufmerksamkeitskarten in ViTs können als Faltungsmatrizen von Impulsfiltern modelliert werden.
Basierend auf diesen Beobachtungen schlagen die Autoren eine strukturierte Initialisierung der Aufmerksamkeitskarten in ViTs vor, bei der die Aufmerksamkeitskarten mit Konvolutionsmatrizen von Impulsfiltern initialisiert werden. Dies ermöglicht es, die induktiven Voreinstellungen von CNNs als Initialisierungsverzerrung in ViTs einzubinden, ohne die architektonische Flexibilität zu beeinträchtigen.
Die Autoren zeigen, dass ihre Methode den aktuellen Stand der Technik bei dateneffizienten ViT-Lernaufgaben auf verschiedenen Benchmarks übertrifft.
Statisztikák
Die Patch-Einbettungen X haben typischerweise eine viel geringere Rangzahl als die minimale Dimension min(N, D).
Eine lineare Kombination von f^2 linear unabhängigen Filtern h kann jeden beliebigen Filter im Filterraum Rf×f ausdrücken.
Idézetek
"Die Architektur von CNNs kann als Initialisierungsverzerrung in ViTs interpretiert werden."
"Zufällige Impulsfilter können in CNNs eine vergleichbare Leistung wie gelernte Filter erreichen."
"Die Aufmerksamkeitskarten in ViTs können als Faltungsmatrizen von Impulsfiltern modelliert werden."