Verbesserung der Generalisierungsfähigkeit von Vision Transformers durch Token-basierte Stilisierung
Unser Ansatz TFS-ViT verbessert die Leistung von Vision Transformers auf unbekannten Domänen, indem er die Token-Merkmale durch Mischen der Normalisierungsstatistiken von Bildern aus verschiedenen Domänen synthetisiert. Wir erweitern diesen Ansatz mit einer neuartigen Aufmerksamkeits-gesteuerten Stilisierungsstrategie, die die Aufmerksamkeitskarten der Klassifikations-Token nutzt, um die Normalisierungsstatistiken der Token entsprechend verschiedener Bildregionen zu berechnen und zu mischen.