核心概念
Unser Ansatz TFS-ViT verbessert die Leistung von Vision Transformers auf unbekannten Domänen, indem er die Token-Merkmale durch Mischen der Normalisierungsstatistiken von Bildern aus verschiedenen Domänen synthetisiert. Wir erweitern diesen Ansatz mit einer neuartigen Aufmerksamkeits-gesteuerten Stilisierungsstrategie, die die Aufmerksamkeitskarten der Klassifikations-Token nutzt, um die Normalisierungsstatistiken der Token entsprechend verschiedener Bildregionen zu berechnen und zu mischen.
摘要
Der Artikel präsentiert einen neuartigen Ansatz zur Domänen-Generalisierung für Vision Transformers (ViTs), genannt Token-Level Feature Stylization (TFS-ViT). Der Kerngedanke ist, die Token-Merkmale durch Mischen der Normalisierungsstatistiken von Bildern aus verschiedenen Domänen zu erweitern, um die Beziehungen zwischen verschiedenen Bildteilen zu lernen, die nicht von dem Bildstil abhängen.
Der Artikel beschreibt zunächst das Problem der Domänen-Generalisierung und erläutert dann den TFS-ViT-Ansatz im Detail. Dieser wird dann mit einer Aufmerksamkeits-gesteuerten Variante (ATFS-ViT) erweitert, die die Aufmerksamkeitskarten der Klassifikations-Token nutzt, um die Stilisierung auf die wichtigsten Bildregionen zu fokussieren.
Die Autoren führen umfangreiche Experimente auf fünf Benchmark-Datensätzen durch und zeigen, dass TFS-ViT den aktuellen Stand der Technik übertrifft. Weitere Analysen untersuchen den Einfluss der Hyperparameter, die Wirksamkeit verschiedener Token-Auswahlstrategien, die Leistung in Einzel-Quell-Domänen-Generalisierung und die Regularisierungseigenschaften des Ansatzes. Abschließend wird die geringe Rechenzeit- und Speicherauslastung des Verfahrens demonstriert.
統計資料
Die Domänen-Generalisierungs-Methode TFS-ViT verbessert die Genauigkeit auf dem PACS-Datensatz um 2,76% gegenüber dem ERM-ViT-Basismodell.
Auf dem VLCS-Datensatz erreicht TFS-ViT eine Steigerung von 3,48% gegenüber dem ERM-ViT-Basismodell.
Auf dem OfficeHome-Datensatz erzielt TFS-ViT eine Verbesserung von 0,45% gegenüber dem vorherigen Spitzenreiter.
Auf dem TerraIncognita-Datensatz verbessert sich die Genauigkeit um 5,66% im Vergleich zum ERM-ViT-Basismodell.
Auf dem DomainNet-Datensatz erreicht TFS-ViT eine Steigerung von 7,44% gegenüber dem ERM-ViT-Basismodell.
引述
"Unser Ansatz transformiert Token-Merkmale durch Mischen der Normalisierungsstatistiken von Bildern aus verschiedenen Domänen."
"Wir erweitern diesen Ansatz mit einer neuartigen Aufmerksamkeits-gesteuerten Stilisierungsstrategie, die die Aufmerksamkeitskarten der Klassifikations-Token nutzt, um die Normalisierungsstatistiken der Token entsprechend verschiedener Bildregionen zu berechnen und zu mischen."