Conceptos Básicos
Die Arbeit schlägt VL2V-ADiP vor, um die OOD-Generalisierung von Vision-Modellen zu verbessern, indem Vision-Sprachmodelle distilliert werden.
Resumen
Die Arbeit untersucht die Verwendung von Vision-Sprachmodellen zur Verbesserung der Domänengeneralisierung in der Bildklassifizierung. Sie schlägt VL2V-ADiP vor, um die OOD-Leistung zu steigern, indem Vision-Sprachmodelle distilliert werden. Die Struktur umfasst die Einführung, verwandte Arbeiten, Notationen, die Robustheit von CLIP-Einbettungen, den vorgeschlagenen Ansatz VL2V-ADiP, Experimente und Ergebnisse, sowie eine Schlussfolgerung.
Einführung
Vision-Sprachmodelle (VLMs) wie CLIP ermöglichen eine bemerkenswerte Generalisierung über verschiedene Datenverteilungen.
Die teure Schulung und Datensammlung von VLMs rechtfertigen nicht immer den Endanwendungsfall.
Ein Anbieter-Kunden-Paradigma wird vorgeschlagen, um die Kosten für die Inferenz zu minimieren.
Verwandte Arbeiten
VLMs werden auf großen Datensätzen von Bild-Text-Paaren trainiert.
Vorherige Arbeiten zur Domänengeneralisierung verwenden verschiedene Methoden wie Augmentation und Feature-Alignment.
Notationen
Beschreibung der Problemstellung des Wissens-Transfers von VLMs zu Vision-Modellen.
Robustheit von CLIP-Einbettungen
CLIP zeigt bemerkenswerte Leistungen bei der Null-Shot-Klassifizierung.
Untersuchung der Merkmale der Bild- und Text-Einbettungen von CLIP.
Vorgeschlagener Ansatz VL2V-ADiP
VL2V-ADiP zielt darauf ab, die Merkmale des VLM-Lehrermodells auf den Schüler zu übertragen.
Der Ansatz kombiniert Ausrichtung, Destillation und Vorhersage, um die OOD-Generalisierung zu verbessern.
Experimente und Ergebnisse
Vergleich mit dem Stand der Technik in der Domänengeneralisierung.
Verbesserung der OOD-Genauigkeit durch den vorgeschlagenen Ansatz VL2V-ADiP.
Schlussfolgerung
Die Arbeit zeigt, wie die Distillation von VLMs zu Vision-Modellen die OOD-Generalisierung verbessern kann.
Estadísticas
VLMs werden auf großen Datensätzen von Bild-Text-Paaren trainiert.
CLIP erreicht 85,2% Null-Shot-Genauigkeit auf ImageNet.
VL2V-ADiP erzielt signifikante Verbesserungen in der Domänengeneralisierung.
Citas
"Die Verwendung von Vision-Sprachmodellen ermöglicht bemerkenswerte Leistungen über verschiedene Datenverteilungen."
"VL2V-ADiP zielt darauf ab, die OOD-Generalisierung von Vision-Modellen zu verbessern."