Core Concepts
Durch Maskierung von Text in Bildern und anschließendes Filtern anhand der Ähnlichkeit zwischen maskiertem Bild und Bildunterschrift kann die Leistung von Modellen für visuelle Repräsentationslernung deutlich verbessert werden.
Abstract
Die Studie untersucht die Zusammensetzung großer webbasierter Bilddatensätze wie LAION und stellt fest, dass etwa 40% der Bilder signifikant überlappenden Text mit den zugehörigen Bildunterschriften enthalten. Solche Bilder können dazu führen, dass Modelle eher optische Zeichenerkennung als das Erlernen visueller Merkmale priorisieren.
Die Autoren schlagen daher einen neuen Ansatz namens T-MARS vor, der zunächst den Text in den Bildern maskiert und dann nur diejenigen Bildunterschrift-Paare behält, bei denen die maskierten Bilder eine hohe Ähnlichkeit zu den Unterschriften aufweisen. Experimente zeigen, dass T-MARS die Leistung auf Benchmark-Datensätzen wie ImageNet deutlich verbessert und sogar besser abschneidet als andere Filteransätze wie CLIP-Ähnlichkeit oder Textüberlappung. Zudem zeigen skalierungsexperimente einen linearen Anstieg der Genauigkeitsgewinne, wenn Datenmenge und Rechenleistung exponentiell erhöht werden.
Zusätzlich führen die Autoren zwei neue Baseline-Filteransätze ein, die ebenfalls bessere Ergebnisse als bisherige Methoden erzielen. Eine Analyse der Nützlichkeit verschiedener Datentypen bestätigt, dass das Entfernen von Beispielen mit nur Textmerkmalen deutlich wichtiger ist als das Hinzufügen neuer Beispiele mit visuellen Merkmalen.
Stats
Etwa 40% der Bilder im LAION-Datensatz enthalten signifikant überlappenden Text mit den zugehörigen Bildunterschriften.
Bilder mit nur Textmerkmalen haben ähnlich negative Auswirkungen wie falsch gelabelte Beispiele.
Entfernen von "schlechten" Beispielen hat etwa 3-mal mehr Nutzen als das Hinzufügen neuer "guter" Beispiele.
Quotes
"Durch Maskierung von Text in Bildern und anschließendes Filtern anhand der Ähnlichkeit zwischen maskiertem Bild und Bildunterschrift kann die Leistung von Modellen für visuelle Repräsentationslernung deutlich verbessert werden."
"Bilder mit nur Textmerkmalen haben ähnlich negative Auswirkungen wie falsch gelabelte Beispiele."
"Entfernen von 'schlechten' Beispielen hat etwa 3-mal mehr Nutzen als das Hinzufügen neuer 'guter' Beispiele."