Ein Graph-basierter Vision-Transformer (GvT) nutzt Graph-Konvolutions-Projektion und Talking-Heads-Aufmerksamkeit, um von Grund auf auf kleinen Datensätzen trainiert zu werden und dabei vergleichbare oder überlegene Ergebnisse wie tiefe Convolutional-Netzwerke zu erzielen.
Die vorgeschlagene Methode zielt darauf ab, die Zuverlässigkeit der Überwachung durch das Lehrermodell zu verbessern, indem sie die falschen Vorhersagen des Lehrers durch Überarbeitung der Etiketten und Auswahl geeigneter Trainingsdaten korrigiert.
Unser Papier stellt eine Methode namens Diverse Feature Learning (DFL) vor, die das Lernen vielfältiger Merkmale durch die Kombination von Selbstdistillation zur Erhaltung wichtiger Merkmale und Reset zum Lernen neuer Merkmale ermöglicht.
Großsprachmodelle können als Ergänzung zu vortrainierten Bild-Sprache-Modellen genutzt werden, um die Leistung bei der Low-Shot-Bildklassifizierung zu verbessern.
Trotz erheblicher Unterschiede zwischen den Datensätzen ImageNet und ImageNot zeigen die Modellrangfolgen und relativen Leistungsverbesserungen eine überraschende Konsistenz.
Die Studie zeigt, dass die untersuchten Verzerrungen (Form-Verzerrung, spektrale Verzerrungen, kritisches Band) nicht ausreichen, um die Generalisierungsfähigkeit von Modellen umfassend vorherzusagen.
Die Autoren schlagen eine Familie von orthogonalen Transformations-basierten Ansätzen vor, um die Convolutional-Schicht in einem CNN zu ersetzen, um die Parameteranzahl und den Rechenaufwand zu reduzieren, während vergleichbare oder sogar höhere Genauigkeit erreicht wird.
Die Auswirkungen von gemischter Datenaufrüstung (MSDA) sind klassenabhängig, wobei einige Klassen von der Verbesserung profitieren, während andere an Leistung verlieren.
Visuelle Modelle können neue Konzepte während der Inferenz ohne Feinabstimmung lernen, indem sie einen eingefrorenen vortrainierten Merkmalsextraktor und ein nicht-kausales Sequenzmodell verwenden.
Eine neuartige Mixup-Methode, die die Kohäsion innerhalb der Klassen gezielt verbessert, sowie eine umfassende integrierte Lösung, die sowohl die Kohäsion innerhalb der Klassen als auch die Trennbarkeit zwischen den Klassen gleichzeitig verbessert, um die Klassifizierungsgenauigkeit zu erhöhen.