Verstehen Bild-Sprache-Modelle zusammengesetzte Substantive?
Zusammengesetzte Substantive, bei denen eines der beiden Substantive als Attribut fungiert, stellen eine Herausforderung für Bild-Sprache-Modelle wie CLIP dar. Ein neuartiger Ansatz, der diverse Bildunterschriften verwendet, verbessert das Verständnis von CLIP für zusammengesetzte Substantive um 8,25%.