Durch das Aufbrechen von Bildern in unabhängige visuelle Konzepte (Subjekt, Objekt, Prädikat) und die Verwendung dieser Konzepte zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text kann die Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung deutlich verbessert werden.
Durch das Aufbrechen von Bildern in unabhängige Komponenten (Subjekt, Objekt, Prädikat) und die Verwendung dieser Komponenten zur Verbesserung der Bild-Text-Zuordnung kann die Leistung von CLIP-ähnlichen Modellen gesteigert werden.
Durch die Zerlegung von Bildern in unabhängige visuelle Konzepte (Subjekt, Objekt, Prädikat) und die Verwendung dieser Konzepte zur dynamischen Gewichtung der Ähnlichkeitsberechnung zwischen Bild und Text kann die Leistung von CLIP-ähnlichen Modellen bei der kompositionellen Bild-Text-Zuordnung verbessert werden.