Der QUILT-1M-Datensatz ist ein öffentlich verfügbarer Datensatz mit über 650.000 Bildern und 1 Million zugehörigen Bildunterschriften, der aus verschiedenen Online-Quellen zusammengestellt wurde. Obwohl der Datensatz eine große Vielfalt an Inhalten bietet, ist die Bildqualität und -zusammensetzung sehr heterogen, was sich negativ auf die Verwendbarkeit für die textbedingte Bildsynthese auswirkt.
Die Autoren schlagen eine automatische Pipeline vor, die Vorhersagen zu den häufigsten Verunreinigungen innerhalb der Bilder trifft, wie z.B. die Sichtbarkeit von Erzählern, Desktopumgebungen, Pathologiesoftware oder Text im Bild. Zusätzlich wird eine semantische Ausrichtungsfilterung der Bild-Text-Paare vorgeschlagen.
Die Ergebnisse zeigen, dass durch eine rigorose Filterung des Datensatzes eine deutliche Verbesserung der Bildtreue bei der textbasierten Bildsynthese erreicht werden kann. Die Autoren haben einen Klassifikator entwickelt, der mit einer Genauigkeit von 92,71% in der Lage ist, Bildverunreinigungen zu erkennen. Im Vergleich zu ungefiltertem Datenmaterial zeigen die auf dem bereinigten Datensatz trainierten Modelle deutlich weniger Artefakte in den generierten Bildern.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Marc Aubrevi... في arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07676.pdfاستفسارات أعمق