Verbesserung visueller Darstellungen durch Umgehung des Textmerkmalslernens
Durch Maskierung von Text in Bildern und anschließendes Filtern anhand der Ähnlichkeit zwischen maskiertem Bild und Bildunterschrift kann die Leistung von Modellen für visuelle Repräsentationslernung deutlich verbessert werden.