Die Studie beschreibt die Erstellung eines Datensatzes mit reichhaltigem menschlichen Feedback (RichHF-18K) für 18.000 generierte Bilder. Dieser Datensatz enthält Annotationen zu Regionen mit Artefakten/Unplausibilität und Textmissalignment, Bewertungen der Plausibilität, Textausrichtung, Ästhetik und Gesamtqualität sowie Markierungen von Schlüsselwörtern, die im Bild nicht korrekt dargestellt sind.
Basierend auf diesem Datensatz wurde ein multimodales Transformermodell (RAHF) entwickelt, das in der Lage ist, diese reichhaltigen Rückmeldungen automatisch vorherzusagen. Die Autoren zeigen, dass die vorhergesagten Rückmeldungen verwendet werden können, um die Bildgenerierung zu verbessern, z.B. durch Auswahl hochqualitativer Trainingsdaten oder durch gezielte Inpainting-Verfahren für problematische Bildregionen.
Die Verbesserungen durch die Nutzung des RAHF-Modells zeigen sich auch bei Modellen (wie Muse), die nicht zur Erstellung der Trainingsbilder verwendet wurden, was die gute Übertragbarkeit des Ansatzes belegt.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Youwei Liang... alle arxiv.org 04-10-2024
https://arxiv.org/pdf/2312.10240.pdfDomande più approfondite