Die Studie beschreibt die Erstellung eines Datensatzes mit reichhaltigem menschlichen Feedback (RichHF-18K) für 18.000 generierte Bilder. Dieser Datensatz enthält Annotationen zu Regionen mit Artefakten/Unplausibilität und Textmissalignment, Bewertungen der Plausibilität, Textausrichtung, Ästhetik und Gesamtqualität sowie Markierungen von Schlüsselwörtern, die im Bild nicht korrekt dargestellt sind.
Basierend auf diesem Datensatz wurde ein multimodales Transformermodell (RAHF) entwickelt, das in der Lage ist, diese reichhaltigen Rückmeldungen automatisch vorherzusagen. Die Autoren zeigen, dass die vorhergesagten Rückmeldungen verwendet werden können, um die Bildgenerierung zu verbessern, z.B. durch Auswahl hochqualitativer Trainingsdaten oder durch gezielte Inpainting-Verfahren für problematische Bildregionen.
Die Verbesserungen durch die Nutzung des RAHF-Modells zeigen sich auch bei Modellen (wie Muse), die nicht zur Erstellung der Trainingsbilder verwendet wurden, was die gute Übertragbarkeit des Ansatzes belegt.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Youwei Liang... pada arxiv.org 04-10-2024
https://arxiv.org/pdf/2312.10240.pdfPertanyaan yang Lebih Dalam