Core Concepts
Unser neuartiger LinCIR-Rahmen (Language-only training for CIR) ermöglicht ein effizientes und hocheffektives Training für die Zero-Shot-Zusammengesetzte Bildsuche, indem er nur Textdatensätze verwendet und eine neuartige Selbstüberwachung namens Self-Masking Projection (SMP) einführt.
Abstract
Der Artikel stellt einen neuen Ansatz für die Zero-Shot-Zusammengesetzte Bildsuche (ZS-CIR) vor, der als Language Only training for Composed Image Retrieval (LinCIR) bezeichnet wird.
Herkömmliche CIR-Ansätze benötigen einen Trainingsdatensatz mit Tripeln aus Abfragebild, Abfragetext und Zielbildern, was sehr aufwendig zu sammeln ist. Einige jüngere Arbeiten haben den ZS-CIR-Ansatz entwickelt, um dieses Problem ohne vorgefertigte Tripel anzugehen. Diese Methoden zeigen jedoch eine begrenzte Skalierbarkeit und Verallgemeinerungsfähigkeit aufgrund der mangelnden Vielfalt der Eingangstexte während des Trainings.
LinCIR verwendet nur Sprache für das Training, indem es eine neuartige Selbstüberwachung namens Self-Masking Projection (SMP) einführt. Dabei wird der Textlatenzvektor auf den Tokeneinbettungsraum projiziert und ein neuer Text erstellt, indem die Schlüsselwörter-Token des Originaltexts ersetzt werden. Dann wird gefordert, dass der neue und der Originaltext den gleichen Latenzvektor haben.
Diese einfache Strategie macht LinCIR überraschend effizient und hocheffektiv. LinCIR mit CLIP ViT-G-Backbone wird in 48 Minuten trainiert und zeigt die besten ZS-CIR-Leistungen auf vier verschiedenen CIR-Benchmarks, CIRCO, GeneCIS, FashionIQ und CIRR, und übertrifft sogar die überwachte Methode auf FashionIQ.
Stats
LinCIR mit CLIP ViT-G-Backbone wird in 48 Minuten trainiert.
LinCIR ist ×6,0 schneller als Pic2Word und ×8,4 schneller als SEARLE mit CLIP ViT-L-Backbone.
Der Trainingsaufwand von LinCIR ViT-G ist ×16,4 und ×17,6 schneller als Pic2Word und SEARLE.
Quotes
"LinCIR zeigt die beste Trainingszeit und ZS-CIR-Leistung."
"LinCIR übertrifft sogar die überwachte Methode auf FashionIQ."
"LinCIR ist überraschend effizient und hocheffektiv."