핵심 개념
Einführung eines neuartigen Datensatzes namens MuLAn, der über 44.000 Mehrschichten-Annotationen von RGB-Bildern als mehrschichtige, instanzweise RGBA-Zerlegungen und über 100.000 Instanzbilder umfasst. Dieser Datensatz soll die Entwicklung von Technologien zur Generierung von Bildern als RGBA-Stapel fördern und neue Möglichkeiten für die kompositorische Text-zu-Bild-Forschung eröffnen.
초록
Der Artikel stellt den MuLAn-Datensatz vor, der eine neuartige Ressource für die Forschung im Bereich der Text-zu-Bild-Generierung darstellt. Der Datensatz umfasst über 44.000 Mehrschichten-Annotationen von RGB-Bildern, bei denen die Bilder in einen Hintergrund und einzelne Instanzen mit transparenten Alpha-Kanälen zerlegt wurden.
Um diesen Datensatz zu erstellen, entwickelten die Autoren eine trainingsfreie Pipeline, die ein monokulares RGB-Bild in einen Stapel von RGBA-Schichten mit Hintergrund und isolierten Instanzen zerlegt. Die Pipeline nutzt vorgefertigte Modelle für Objekterkennung, Segmentierung und Tiefenschätzung, um Instanzen zu entdecken, zu extrahieren und zu vervollständigen. Anschließend werden die Instanzen in einer RGBA-Darstellung zusammengesetzt.
Der MuLAn-Datensatz umfasst Bilder aus den COCO- und LAION-Aesthetics-6.5-Datensätzen und bietet eine große Vielfalt an Szenen, Stilen, Auflösungen und Objektkategorien. Die Autoren zeigen zwei Anwendungsbeispiele, die das Potenzial des Datensatzes für die Forschung zur kontrollierbaren Bild-Generierung und -Bearbeitung demonstrieren.
통계
"Wir verarbeiten alle COCO-Bilder (58K Bilder) und eine zufällige Teilmenge von 100K LAION-Bildern, um den Rechenaufwand zu begrenzen."
"Der MuLAn-Datensatz umfasst insgesamt 44.860 Bilder mit 101.269 Instanzen."
"Im MuLAn-LAION-Datensatz gibt es 28.826 Bilder mit 60.934 Instanzen, während der MuLAn-COCO-Datensatz 16.034 Bilder mit 40.335 Instanzen enthält."
"Der durchschnittliche Verdeckungsgrad der Instanzen beträgt 7,7%."
인용구
"Unser Ziel bei der Veröffentlichung von MuLAn ist es, die Entwicklung und das Training von Technologien zur Generierung von Bildern als RGBA-Stapel zu fördern, indem wir umfassende Informationen zur Szenenzersetzung anbieten und die Konsistenz der Szeneninstanzen gewährleisten."
"MuLAn bietet die erste fotorealistische Ressource, die Instanzzerlegung und Verdeckungsinformationen für hochwertige Bilder bereitstellt und neue Wege für die KI-Forschung zur Text-zu-Bild-Generierung eröffnet."