Grunnleggende konsepter
Selektiv informative Beschreibungen (SID) können die Einbettungsverflechtungen zwischen dem Subjekt und unerwünschten Objekten in Referenzbildern effektiv reduzieren und so die Ausrichtung der generierten Bilder mit der Eingabeaufforderung verbessern.
Sammendrag
Die Studie untersucht das Phänomen der unerwünschten Einbettungsverflechtungen in der Text-zu-Bild-Personalisierung, bei dem Informationen über Nicht-Subjekt-Objekte in den Referenzbildern in die Subjekteinbettung einfließen und so die Generierung beeinflussen.
Es werden fünf Hauptarten von Verzerrungen identifiziert: Hintergrund, nahegelegene Objekte, verbundene Objekte, Substanz (bei Stilrekontextualisierung) und Pose-Verzerrungen.
Um diese Verzerrungen zu adressieren, wird die Methode der selektiv informativen Beschreibungen (SID) vorgeschlagen. SID erweitert die übliche Textbeschreibung, die nur die Klasse des Subjekts enthält, um informative Spezifikationen zu unerwünschten Objekten in den Referenzbildern. Dies verhindert, dass diese unerwünschten Objekte versehentlich mit der Subjekteinbettung verwoben werden.
Die Wirksamkeit von SID wird durch umfangreiche Experimente mit vier optimierungsbasierten Modellen (DreamBooth, Custom Diffusion, SVDiff, Textual Inversion) sowie zwei encoderbasierte Modelle (ELITE, BLIP-Diffusion) nachgewiesen. SID zeigt signifikante Verbesserungen bei der Subjektausrichtung, der Entkopplung von Nicht-Subjekt-Elementen und der Textausrichtung.
Statistikk
Die Einbettungsverflechtungen können zu einer Übertragung von Verzerrungen aus den Referenzbildern in die generierten Bilder führen und die Ausrichtung der generierten Bilder mit der Eingabeaufforderung erheblich beeinträchtigen.
SID kann die Wahrscheinlichkeit unerwünschter Verflechtungen zwischen der Subjekteinbettung und Nicht-Subjekt-Informationen in den Referenzbildern deutlich reduzieren.
Sitater
"Selektiv informative Beschreibungen (SID) können die Einbettungsverflechtungen zwischen dem Subjekt und unerwünschten Objekten in Referenzbildern effektiv reduzieren und so die Ausrichtung der generierten Bilder mit der Eingabeaufforderung verbessern."
"Um diese Verzerrungen zu adressieren, wird die Methode der selektiv informativen Beschreibungen (SID) vorgeschlagen."