核心概念
Durch das Aufbrechen von Bildern in unabhängige visuelle Konzepte (Subjekt, Objekt, Prädikat) und die Verwendung dieser Konzepte zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text kann die Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung deutlich verbessert werden.
要約
Die Studie befasst sich mit der Verbesserung der Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung. Dazu wird ein neuer Ansatz namens ComCLIP vorgestellt, der die Bilder in unabhängige visuelle Konzepte wie Subjekt, Objekt und Prädikat zerlegt und diese Konzepte dann zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text verwendet.
Der Kern der Idee ist, dass die Fehler in der Semantik einzelner Entitäten (Subjekt, Objekt, Prädikat) zu Verzerrungen ("Confoundern") führen, die das Matching von Bild und Text beeinträchtigen. Durch die Zerlegung des Bildes in diese Konzepte und deren separate Berücksichtigung kann ComCLIP diese Verzerrungen abmildern und so eine genauere kompositionelle Zuordnung erreichen.
Die Evaluation auf verschiedenen Datensätzen zeigt, dass ComCLIP die Leistung von CLIP, SLIP und BLIP2 bei der kompositionellen Bild-Text-Zuordnung deutlich verbessern kann, ohne dass weitere Trainings oder Feinabstimmungen erforderlich sind. Darüber hinaus erweist sich der Ansatz auch für allgemeine Bild-Text-Retrieval-Aufgaben als effektiv.
統計
Die Studie verwendet mehrere Datensätze zur Evaluation, darunter:
Winoground: 400 Instanzen mit je 2 Bild-Text-Paaren, die sich nur in der Anordnung identischer Wörter unterscheiden
VL-checklist: 2000 Bilder aus jeder der 3 Kategorien
Flickr30K: 1000 Testbilder mit je 5 Annotationen
MSCOCO: 1000 Testbilder mit je 1 zufällig ausgewählter Annotation
SVO-Probes: 13.000 Datenpunkte, die Unterscheidungen zwischen Subjekt, Objekt und Prädikat testen
Compositional Visual Genome (ComVG): 5.400 Bild-Text-Paare mit Annotationen zu Subjekt, Verb und Objekt
引用
"Durch das Aufbrechen von Bildern in unabhängige visuelle Konzepte (Subjekt, Objekt, Prädikat) und die Verwendung dieser Konzepte zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text kann die Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung deutlich verbessert werden."