Core Concepts
Ein trainingsfreies Layoutkalibrierungssystem SimM, das den generierten Bildern die in den Textbeschreibungen spezifizierten Layoutanforderungen auferlegt.
Abstract
Der Artikel präsentiert ein trainingsfreies Layoutkalibrierungssystem SimM für Text-zu-Bild-Generatoren. SimM folgt einem "Prüfen-Lokalisieren-Korrigieren"-Pipeline, um die generierten Bilder an die Layoutanforderungen in den Textbeschreibungen anzupassen.
Zunächst prüft das System, ob Layoutanforderungen in den Eingabetexten vorhanden sind und ob Inkonsistenzen zwischen dem generierten Bild und den Layoutanforderungen bestehen. Wenn Korrekturen erforderlich sind, lokalisiert das System die falsch platzierten Objektaktivierungen in den Zwischenschichten des Generators. Anschließend werden diese Aktivierungen an die richtigen Positionen verschoben und durch intra- und inter-Karten-Aktivierungsanpassungen weiter verfeinert.
Das System wurde auf einem neuen Benchmark SimMBench evaluiert, der sowohl relative als auch superlative Layoutanforderungen abdeckt. Die Ergebnisse zeigen, dass SimM die Layoutgenauigkeit deutlich verbessert, ohne die Bildqualität zu beeinträchtigen. Im Vergleich zu bestehenden layoutgesteuerten Methoden, die zusätzliches Training erfordern, bietet SimM eine flexiblere und effizientere Lösung.
Stats
Die Textbeschreibungen können sowohl relative als auch superlative räumliche Beziehungen zwischen Objekten enthalten.
SimM erzielt auf dem DrawBench-Datensatz eine Genauigkeit von 53% und auf dem neu eingeführten SimMBench-Datensatz eine Genauigkeit von 65,16%.
Quotes
"Diffusionsmodelle haben in letzter Zeit bemerkenswerte Fortschritte bei der Erzeugung realistischer Bilder erzielt. Allerdings bleiben Herausforderungen bei der genauen Verständnis und Synthese der Layoutanforderungen in den Textbeschreibungen bestehen."
"Um die generierten Bilder an die Layoutanweisungen anzupassen, präsentieren wir ein trainingsfreies Layoutkalibrierungssystem SimM, das in den Generierungsprozess zur Laufzeit eingreift."