Die Studie untersucht die Zusammensetzung großer webbasierter Bilddatensätze wie LAION und stellt fest, dass etwa 40% der Bilder signifikant überlappenden Text mit den zugehörigen Bildunterschriften enthalten. Solche Bilder können dazu führen, dass Modelle eher optische Zeichenerkennung als das Erlernen visueller Merkmale priorisieren.
Die Autoren schlagen daher einen neuen Ansatz namens T-MARS vor, der zunächst den Text in den Bildern maskiert und dann nur diejenigen Bildunterschrift-Paare behält, bei denen die maskierten Bilder eine hohe Ähnlichkeit zu den Unterschriften aufweisen. Experimente zeigen, dass T-MARS die Leistung auf Benchmark-Datensätzen wie ImageNet deutlich verbessert und sogar besser abschneidet als andere Filteransätze wie CLIP-Ähnlichkeit oder Textüberlappung. Zudem zeigen skalierungsexperimente einen linearen Anstieg der Genauigkeitsgewinne, wenn Datenmenge und Rechenleistung exponentiell erhöht werden.
Zusätzlich führen die Autoren zwei neue Baseline-Filteransätze ein, die ebenfalls bessere Ergebnisse als bisherige Methoden erzielen. Eine Analyse der Nützlichkeit verschiedener Datentypen bestätigt, dass das Entfernen von Beispielen mit nur Textmerkmalen deutlich wichtiger ist als das Hinzufügen neuer Beispiele mit visuellen Merkmalen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문