Eine neuartige Methode zur Erkennung von Verteilungsverschiebungen, die spezifische Aufforderungen zur Generierung von OOD-Peer-Klassen durch ein großes Sprachmodell als zusätzliche Modalität nutzt, um die Erkennung zu erleichtern. Darüber hinaus wird ein kontrastiver Verlust basierend auf OOD-Peer-Klassen entwickelt, um kompakte Darstellungen von ID-Klassen zu lernen und die Klarheit der Grenzen zwischen verschiedenen Klassen zu verbessern.
Durch die Einführung eines neuartigen Dual-Pfad-Ansatzes, der sowohl positive als auch negative Perspektiven berücksichtigt, kann die Leistung von Vision-Sprache-Modellen in spezifischen Downstream-Aufgaben effizient verbessert werden.
CLIP-Modelle, die auf großen Web-Datensätzen trainiert wurden, zeigen zwar eine beeindruckende Leistung bei Verteilungsverschiebungen, lernen aber immer noch Scheinkorrelationen, die ihre Robustheit beeinträchtigen können. Im Vergleich dazu sind konventionelle ImageNet-Modelle in manchen Fällen robuster gegenüber solchen Scheinkorrelationen.
Durch Anwendung von Bildaugmentierungen auf eingefrorene Merkmale einer vortrainierten Bildklassifizierungsarchitektur kann die Leistung auf Wenig-Schuss-Aufgaben konsistent verbessert werden.
Diese Studie präsentiert umfassende Experimente zu Machine Unlearning-Algorithmen, die auf Vision Transformer-Modelle angewendet werden, um spezifische Trainingsdaten zu vergessen.
Durch das Trainieren des vortrainierten Modells nur auf der ersten Aufgabe und anschließendes Verfeinern der Darstellung zur Testzeit können die Stabilität und Plastizität des Modells für inkrementelles Klassenlernen ausgewogen gehalten werden.
MixReorg ist ein neuartiges und einfaches Vortrainingsprogramm für die semantische Segmentierung, das die Fähigkeit eines Modells verbessert, Patches über Bilder hinweg neu anzuordnen, wobei sowohl die lokale visuelle Relevanz als auch die globale semantische Kohärenz erforscht werden. Durch MixReorg als Maskenlerner können herkömmliche textbasierte semantische Segmentationsmodelle eine hochgradig verallgemeinerbare Pixel-Semantik-Ausrichtungsfähigkeit erreichen, die für die Segmentation in offenen Welten entscheidend ist.
Eine Methode namens Sparse MetA-Tuning (SMAT) wird vorgestellt, die eine Interpolation des vortrainierten Modells mit einer gelernten Kombination von dünn besetzten Experten verwendet, um die Übertragungsfähigkeit von Grundlagenmodellen in der Computervision zu verbessern.