Core Concepts
Eine neuartige Methode zur Optimierung negativer Prompts, die die Ästhetik und Treue der generierten Bilder deutlich verbessert.
Abstract
Die Studie präsentiert NegOpt, eine neuartige Methode zur Optimierung negativer Prompts für die Text-zu-Bild-Generierung. NegOpt besteht aus zwei Phasen:
Überwachtes Feintuning (SFT): Ein Sequenz-zu-Sequenz-Modell wird auf einem neu erstellten Datensatz negativer Prompts feinabgestimmt, um aus normalen Prompts optimierte negative Prompts zu generieren.
Verstärkendes Lernen (RL): Das feinabgestimmte Modell wird weiter optimiert, indem es auf Basis der Qualität der generierten Bilder belohnt wird. Dabei werden Ästhetik, Ausrichtung und Treue der Bilder berücksichtigt.
Die Ergebnisse zeigen eine deutliche Verbesserung der Bildqualität im Vergleich zu Basislinien und anderen Methoden. NegOpt erzielt einen Anstieg des Inception-Scores um 24,8% und des Ästhetik-Scores um 18,6% gegenüber den Vergleichsmethoden. Darüber hinaus übertrifft NegOpt sogar die manuell erstellten negativen Prompts aus dem Testdatensatz.
Die Studie hebt hervor, dass das überwachte Feintuning eine solide Grundlage schafft, während das verstärkende Lernen eine gezielte Optimierung der wichtigsten Metrik, in diesem Fall der Ästhetik, ermöglicht.
Stats
Eine Steigerung des Inception-Scores um 24,8% im Vergleich zur Baseline.
Eine Steigerung des Ästhetik-Scores um 18,6% im Vergleich zur Baseline.
Quotes
"NegOpt lernt bessere negative Prompts als die Ground-Truth im Testdatensatz."
"Durch den Einsatz von RL können wir unsere Leistung auf bestimmten Metriken gezielter optimieren, ohne dabei andere Metriken stark zu beeinträchtigen."