Der Artikel stellt den MuLAn-Datensatz vor, der eine neuartige Ressource für die Forschung im Bereich der Text-zu-Bild-Generierung darstellt. Der Datensatz umfasst über 44.000 Mehrschichten-Annotationen von RGB-Bildern, bei denen die Bilder in einen Hintergrund und einzelne Instanzen mit transparenten Alpha-Kanälen zerlegt wurden.
Um diesen Datensatz zu erstellen, entwickelten die Autoren eine trainingsfreie Pipeline, die ein monokulares RGB-Bild in einen Stapel von RGBA-Schichten mit Hintergrund und isolierten Instanzen zerlegt. Die Pipeline nutzt vorgefertigte Modelle für Objekterkennung, Segmentierung und Tiefenschätzung, um Instanzen zu entdecken, zu extrahieren und zu vervollständigen. Anschließend werden die Instanzen in einer RGBA-Darstellung zusammengesetzt.
Der MuLAn-Datensatz umfasst Bilder aus den COCO- und LAION-Aesthetics-6.5-Datensätzen und bietet eine große Vielfalt an Szenen, Stilen, Auflösungen und Objektkategorien. Die Autoren zeigen zwei Anwendungsbeispiele, die das Potenzial des Datensatzes für die Forschung zur kontrollierbaren Bild-Generierung und -Bearbeitung demonstrieren.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Petru-Daniel... : arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02790.pdfDaha Derin Sorular