Die Studie beschreibt die Erstellung eines Datensatzes mit reichhaltigem menschlichen Feedback (RichHF-18K) für 18.000 generierte Bilder. Dieser Datensatz enthält Annotationen zu Regionen mit Artefakten/Unplausibilität und Textmissalignment, Bewertungen der Plausibilität, Textausrichtung, Ästhetik und Gesamtqualität sowie Markierungen von Schlüsselwörtern, die im Bild nicht korrekt dargestellt sind.
Basierend auf diesem Datensatz wurde ein multimodales Transformermodell (RAHF) entwickelt, das in der Lage ist, diese reichhaltigen Rückmeldungen automatisch vorherzusagen. Die Autoren zeigen, dass die vorhergesagten Rückmeldungen verwendet werden können, um die Bildgenerierung zu verbessern, z.B. durch Auswahl hochqualitativer Trainingsdaten oder durch gezielte Inpainting-Verfahren für problematische Bildregionen.
Die Verbesserungen durch die Nutzung des RAHF-Modells zeigen sich auch bei Modellen (wie Muse), die nicht zur Erstellung der Trainingsbilder verwendet wurden, was die gute Übertragbarkeit des Ansatzes belegt.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Youwei Liang... às arxiv.org 04-10-2024
https://arxiv.org/pdf/2312.10240.pdfPerguntas Mais Profundas