Khái niệm cốt lõi
Die Arbeit schlägt VL2V-ADiP vor, um die OOD-Generalisierung von Vision-Modellen zu verbessern, indem Vision-Sprachmodelle distilliert werden.
Tóm tắt
Die Arbeit untersucht die Verwendung von Vision-Sprachmodellen zur Verbesserung der Domänengeneralisierung in der Bildklassifizierung. Sie schlägt VL2V-ADiP vor, um die OOD-Leistung zu steigern, indem Vision-Sprachmodelle distilliert werden. Die Struktur umfasst die Einführung, verwandte Arbeiten, Notationen, die Robustheit von CLIP-Einbettungen, den vorgeschlagenen Ansatz VL2V-ADiP, Experimente und Ergebnisse, sowie eine Schlussfolgerung.
Einführung
- Vision-Sprachmodelle (VLMs) wie CLIP ermöglichen eine bemerkenswerte Generalisierung über verschiedene Datenverteilungen.
- Die teure Schulung und Datensammlung von VLMs rechtfertigen nicht immer den Endanwendungsfall.
- Ein Anbieter-Kunden-Paradigma wird vorgeschlagen, um die Kosten für die Inferenz zu minimieren.
Verwandte Arbeiten
- VLMs werden auf großen Datensätzen von Bild-Text-Paaren trainiert.
- Vorherige Arbeiten zur Domänengeneralisierung verwenden verschiedene Methoden wie Augmentation und Feature-Alignment.
Notationen
- Beschreibung der Problemstellung des Wissens-Transfers von VLMs zu Vision-Modellen.
Robustheit von CLIP-Einbettungen
- CLIP zeigt bemerkenswerte Leistungen bei der Null-Shot-Klassifizierung.
- Untersuchung der Merkmale der Bild- und Text-Einbettungen von CLIP.
Vorgeschlagener Ansatz VL2V-ADiP
- VL2V-ADiP zielt darauf ab, die Merkmale des VLM-Lehrermodells auf den Schüler zu übertragen.
- Der Ansatz kombiniert Ausrichtung, Destillation und Vorhersage, um die OOD-Generalisierung zu verbessern.
Experimente und Ergebnisse
- Vergleich mit dem Stand der Technik in der Domänengeneralisierung.
- Verbesserung der OOD-Genauigkeit durch den vorgeschlagenen Ansatz VL2V-ADiP.
Schlussfolgerung
- Die Arbeit zeigt, wie die Distillation von VLMs zu Vision-Modellen die OOD-Generalisierung verbessern kann.
Thống kê
VLMs werden auf großen Datensätzen von Bild-Text-Paaren trainiert.
CLIP erreicht 85,2% Null-Shot-Genauigkeit auf ImageNet.
VL2V-ADiP erzielt signifikante Verbesserungen in der Domänengeneralisierung.
Trích dẫn
"Die Verwendung von Vision-Sprachmodellen ermöglicht bemerkenswerte Leistungen über verschiedene Datenverteilungen."
"VL2V-ADiP zielt darauf ab, die OOD-Generalisierung von Vision-Modellen zu verbessern."