Concepts de base
Durch die Sammlung von detailliertem menschlichen Feedback auf generierten Bildern, einschließlich Markierungen von Regionen mit Artefakten/Unplausibilität und Textmissalignment sowie Bewertungen der Plausibilität, Textausrichtung, Ästhetik und Gesamtqualität, können Modelle entwickelt werden, die diese Aspekte automatisch vorhersagen und so die Qualität der generierten Bilder verbessern können.
Résumé
Die Studie beschreibt die Erstellung eines Datensatzes mit reichhaltigem menschlichen Feedback (RichHF-18K) für 18.000 generierte Bilder. Dieser Datensatz enthält Annotationen zu Regionen mit Artefakten/Unplausibilität und Textmissalignment, Bewertungen der Plausibilität, Textausrichtung, Ästhetik und Gesamtqualität sowie Markierungen von Schlüsselwörtern, die im Bild nicht korrekt dargestellt sind.
Basierend auf diesem Datensatz wurde ein multimodales Transformermodell (RAHF) entwickelt, das in der Lage ist, diese reichhaltigen Rückmeldungen automatisch vorherzusagen. Die Autoren zeigen, dass die vorhergesagten Rückmeldungen verwendet werden können, um die Bildgenerierung zu verbessern, z.B. durch Auswahl hochqualitativer Trainingsdaten oder durch gezielte Inpainting-Verfahren für problematische Bildregionen.
Die Verbesserungen durch die Nutzung des RAHF-Modells zeigen sich auch bei Modellen (wie Muse), die nicht zur Erstellung der Trainingsbilder verwendet wurden, was die gute Übertragbarkeit des Ansatzes belegt.
Stats
Nur etwa 10% der generierten Bilder im Pick-a-Pic-Datensatz sind frei von Artefakten und Unplausibilität.
69 von 995 Testbildern haben keine Regionen mit Artefakten/Unplausibilität.
144 von 995 Testbildern haben keine Regionen mit Textmissalignment.
Citations
"Bestehende automatische Bewertungsmetriken für generierte Bilder, einschließlich der bekannten IS und FID, werden über Bildverteilungen berechnet und spiegeln möglicherweise nicht die Feinheiten einzelner Bilder wider."
"Trotz dieser wertvollen Beiträge verwenden die meisten bestehenden Arbeiten nur binäre menschliche Bewertungen oder Präferenzrangfolgen für die Erstellung von Feedback/Belohnungen und verfügen nicht über die Fähigkeit, detaillierte, umsetzbare Rückmeldungen wie unplausible Regionen des Bildes, missalignierte Regionen oder missalignierte Schlüsselwörter auf den generierten Bildern bereitzustellen."