Der QUILT-1M-Datensatz ist ein öffentlich verfügbarer Datensatz mit über 650.000 Bildern und 1 Million zugehörigen Bildunterschriften, der aus verschiedenen Online-Quellen zusammengestellt wurde. Obwohl der Datensatz eine große Vielfalt an Inhalten bietet, ist die Bildqualität und -zusammensetzung sehr heterogen, was sich negativ auf die Verwendbarkeit für die textbedingte Bildsynthese auswirkt.
Die Autoren schlagen eine automatische Pipeline vor, die Vorhersagen zu den häufigsten Verunreinigungen innerhalb der Bilder trifft, wie z.B. die Sichtbarkeit von Erzählern, Desktopumgebungen, Pathologiesoftware oder Text im Bild. Zusätzlich wird eine semantische Ausrichtungsfilterung der Bild-Text-Paare vorgeschlagen.
Die Ergebnisse zeigen, dass durch eine rigorose Filterung des Datensatzes eine deutliche Verbesserung der Bildtreue bei der textbasierten Bildsynthese erreicht werden kann. Die Autoren haben einen Klassifikator entwickelt, der mit einer Genauigkeit von 92,71% in der Lage ist, Bildverunreinigungen zu erkennen. Im Vergleich zu ungefiltertem Datenmaterial zeigen die auf dem bereinigten Datensatz trainierten Modelle deutlich weniger Artefakte in den generierten Bildern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Marc Aubrevi... alle arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07676.pdfDomande più approfondite