Der Artikel präsentiert einen neuartigen Ansatz zur Domänen-Generalisierung für Vision Transformers (ViTs), genannt Token-Level Feature Stylization (TFS-ViT). Der Kerngedanke ist, die Token-Merkmale durch Mischen der Normalisierungsstatistiken von Bildern aus verschiedenen Domänen zu erweitern, um die Beziehungen zwischen verschiedenen Bildteilen zu lernen, die nicht von dem Bildstil abhängen.
Der Artikel beschreibt zunächst das Problem der Domänen-Generalisierung und erläutert dann den TFS-ViT-Ansatz im Detail. Dieser wird dann mit einer Aufmerksamkeits-gesteuerten Variante (ATFS-ViT) erweitert, die die Aufmerksamkeitskarten der Klassifikations-Token nutzt, um die Stilisierung auf die wichtigsten Bildregionen zu fokussieren.
Die Autoren führen umfangreiche Experimente auf fünf Benchmark-Datensätzen durch und zeigen, dass TFS-ViT den aktuellen Stand der Technik übertrifft. Weitere Analysen untersuchen den Einfluss der Hyperparameter, die Wirksamkeit verschiedener Token-Auswahlstrategien, die Leistung in Einzel-Quell-Domänen-Generalisierung und die Regularisierungseigenschaften des Ansatzes. Abschließend wird die geringe Rechenzeit- und Speicherauslastung des Verfahrens demonstriert.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Mehrdad Noor... klokken arxiv.org 03-19-2024
https://arxiv.org/pdf/2303.15698.pdfDypere Spørsmål