Die Studie befasst sich mit der Verbesserung der Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung. Dazu wird ein neuer Ansatz namens ComCLIP vorgestellt, der die Bilder in unabhängige visuelle Konzepte wie Subjekt, Objekt und Prädikat zerlegt und diese Konzepte dann zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text verwendet.
Der Kern der Idee ist, dass die Fehler in der Semantik einzelner Entitäten (Subjekt, Objekt, Prädikat) zu Verzerrungen ("Confoundern") führen, die das Matching von Bild und Text beeinträchtigen. Durch die Zerlegung des Bildes in diese Konzepte und deren separate Berücksichtigung kann ComCLIP diese Verzerrungen abmildern und so eine genauere kompositionelle Zuordnung erreichen.
Die Evaluation auf verschiedenen Datensätzen zeigt, dass ComCLIP die Leistung von CLIP, SLIP und BLIP2 bei der kompositionellen Bild-Text-Zuordnung deutlich verbessern kann, ohne dass weitere Trainings oder Feinabstimmungen erforderlich sind. Darüber hinaus erweist sich der Ansatz auch für allgemeine Bild-Text-Retrieval-Aufgaben als effektiv.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Kenan Jiang,... في arxiv.org 03-22-2024
https://arxiv.org/pdf/2211.13854.pdfاستفسارات أعمق