Temel Kavramlar
Das Fashion-Diffusion-Datensatz umfasst über eine Million hochwertige Modebilder mit detaillierten Textbeschreibungen, die den Prozess der Modegestaltung durch Textgenerierung und Bildsynthese vereinfachen.
Özet
Der Fashion-Diffusion-Datensatz ist das erste öffentlich zugängliche Datensatz mit über einer Million hochauflösenden Modebildern, die mit detaillierten Textbeschreibungen zu Kleidung und Menschen versehen sind. Der Datensatz wurde über mehrere Jahre hinweg sorgfältig zusammengestellt und umfasst Bilder aus einer Vielzahl geografischer Regionen und kultureller Hintergründe, um globale Modetrends abzubilden.
Die Bilder wurden mit feingranularen Attributen zu Kleidung und Menschen annotiert, um den Modegestaltungsprozess in eine Textgenerierung-zu-Bild-Aufgabe (T2I) zu überführen. Der Datensatz bietet nicht nur hochwertige Text-Bild-Paare und vielfältige Mensch-Kleidung-Kombinationen, sondern dient auch als umfangreiche Ressource zu Menschen, was die Forschung im Bereich der T2I-Generierung fördert.
Darüber hinaus wurde ein neuer Benchmark für die Bewertung der Leistung von Modedesignmodellen entwickelt, um die Standardisierung in diesem Bereich voranzubringen. Die Ergebnisse zeigen, dass Modelle, die auf dem Fashion-Diffusion-Datensatz trainiert wurden, sowohl in Bezug auf die Qualität (FID: 8,33 vs. 15,32, IS: 6,95 vs. 4,7, CLIPScore: 0,83 vs. 0,70) als auch die Quantität (1,04 Millionen Modebilder mit einer Auflösung von 768x1152) neue Maßstäbe setzen.
İstatistikler
Die Bilder im Fashion-Diffusion-Datensatz haben eine Auflösung von 768 x 1152 Pixeln.
Die Textbeschreibungen zu Menschen haben eine Länge von 15 bis 25 Wörtern, die Beschreibungen zu Kleidung eine Länge von 35 bis 55 Wörtern.
Der CLIPScore, der die Relevanz zwischen Text und Bild misst, beträgt 0,80 für den Fashion-Diffusion-Datensatz.
Alıntılar
"Der Fashion-Diffusion-Datensatz bietet über eine Million hochwertige Modebilder mit detaillierten Textbeschreibungen, die den Prozess der Modegestaltung durch Textgenerierung und Bildsynthese vereinfachen."
"Die Bilder im Fashion-Diffusion-Datensatz wurden mit feingranularen Attributen zu Kleidung und Menschen annotiert, um den Modegestaltungsprozess in eine Textgenerierung-zu-Bild-Aufgabe (T2I) zu überführen."