Die Autoren stellen fest, dass CLIP-ähnliche Modelle Schwierigkeiten haben, Objekte, Subjekte und Verben/Prädikate korrekt zuzuordnen, wenn es um kompositionelle Bild-Text-Zuordnung geht. Um dies zu verbessern, schlagen sie einen trainingsfreien Ansatz namens ComCLIP vor, der auf kausaler Modellierung basiert.
ComCLIP zerlegt Eingabebilder in unabhängige Komponenten wie Subjekt, Objekt und Prädikat und verwendet diese, um die Bild-Text-Zuordnung auf Komponentenebene durchzuführen. Dadurch können Verzerrungen, die durch Lernprozesse in der Vorverarbeitung entstanden sind, abgemildert werden.
Die Autoren evaluieren ComCLIP auf mehreren Datensätzen für kompositionelle Bild-Text-Zuordnung und zeigen, dass es die Leistung von CLIP, SLIP und BLIP2 deutlich verbessern kann, ohne weitere Trainings- oder Feinabstimmungsschritte erforderlich zu machen. Darüber hinaus ist ComCLIP auch für allgemeine Bild-Text-Retrieval-Aufgaben wettbewerbsfähig.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Kenan Jiang,... alle arxiv.org 03-22-2024
https://arxiv.org/pdf/2211.13854.pdfDomande più approfondite