Der Artikel präsentiert ein trainingsfreies Layoutkalibrierungssystem SimM für Text-zu-Bild-Generatoren. SimM folgt einem "Prüfen-Lokalisieren-Korrigieren"-Pipeline, um die generierten Bilder an die Layoutanforderungen in den Textbeschreibungen anzupassen.
Zunächst prüft das System, ob Layoutanforderungen in den Eingabetexten vorhanden sind und ob Inkonsistenzen zwischen dem generierten Bild und den Layoutanforderungen bestehen. Wenn Korrekturen erforderlich sind, lokalisiert das System die falsch platzierten Objektaktivierungen in den Zwischenschichten des Generators. Anschließend werden diese Aktivierungen an die richtigen Positionen verschoben und durch intra- und inter-Karten-Aktivierungsanpassungen weiter verfeinert.
Das System wurde auf einem neuen Benchmark SimMBench evaluiert, der sowohl relative als auch superlative Layoutanforderungen abdeckt. Die Ergebnisse zeigen, dass SimM die Layoutgenauigkeit deutlich verbessert, ohne die Bildqualität zu beeinträchtigen. Im Vergleich zu bestehenden layoutgesteuerten Methoden, die zusätzliches Training erfordern, bietet SimM eine flexiblere und effizientere Lösung.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문