Die Autoren stellen fest, dass CLIP-ähnliche Modelle Schwierigkeiten haben, Objekte, Subjekte und Verben/Prädikate korrekt zuzuordnen, wenn es um kompositionelle Bild-Text-Zuordnung geht. Um dies zu verbessern, schlagen sie einen trainingsfreien Ansatz namens ComCLIP vor, der auf kausaler Modellierung basiert.
ComCLIP zerlegt Eingabebilder in unabhängige Komponenten wie Subjekt, Objekt und Prädikat und verwendet diese, um die Bild-Text-Zuordnung auf Komponentenebene durchzuführen. Dadurch können Verzerrungen, die durch Lernprozesse in der Vorverarbeitung entstanden sind, abgemildert werden.
Die Autoren evaluieren ComCLIP auf mehreren Datensätzen für kompositionelle Bild-Text-Zuordnung und zeigen, dass es die Leistung von CLIP, SLIP und BLIP2 deutlich verbessern kann, ohne weitere Trainings- oder Feinabstimmungsschritte erforderlich zu machen. Darüber hinaus ist ComCLIP auch für allgemeine Bild-Text-Retrieval-Aufgaben wettbewerbsfähig.
To Another Language
from source content
arxiv.org
Głębsze pytania