Основні поняття
Unser vorgeschlagenes SmartControl kann kontrollierbare Bildgenerierung unter rauen visuellen Bedingungen durchführen, die aus anderen Bildern extrahiert wurden. Im Gegensatz dazu hält ControlNet [40] an den Kontrollbedingungen fest, was den menschlichen Absichten zuwiderlaufen kann.
Анотація
Die menschliche visuelle Vorstellungskraft beginnt oft mit Analogien oder groben Skizzen. Zum Beispiel könnte man sich bei einem Bild mit einem Mädchen, das Gitarre vor einem Gebäude spielt, vorstellen, wie es aussehen würde, wenn Iron Man Gitarre vor den Pyramiden in Ägypten spielen würde. Die visuellen Bedingungen stimmen jedoch möglicherweise nicht genau mit dem durch den Texthinweis angegebenen imaginären Ergebnis überein, und bestehende layoutkontrollierbare Text-zu-Bild-Generierungsmodelle neigen dazu, verschlechterte generierte Ergebnisse mit offensichtlichen Artefakten zu produzieren.
Um dieses Problem anzugehen, präsentieren wir eine neuartige Text-zu-Bild-Generierungsmethode namens SmartControl, die darauf ausgelegt ist, die rauen visuellen Bedingungen zu modifizieren, um sie an den Texthinweis anzupassen. Die Schlüsselidee unseres SmartControl besteht darin, die visuellen Bedingungen in den Bereichen zu lockern, die mit den Texthinweisen in Konflikt stehen. Insbesondere wurde ein Control Scale Predictor (CSP) entwickelt, um die Konfliktregionen zu identifizieren und die lokalen Kontrollskalen vorherzusagen, während ein Datensatz mit Texthinweisen und rauen visuellen Bedingungen zum Training des CSP erstellt wurde. Selbst mit einer begrenzten Anzahl (z.B. 1.000 bis 2.000) von Trainingsdaten kann unser SmartControl gut auf unbekannte Objekte verallgemeinern. Umfangreiche Experimente zu vier typischen Arten von visuellen Bedingungen zeigen die Wirksamkeit unseres SmartControl gegenüber dem Stand der Technik deutlich.
Статистика
Die Größe des Trainingsdatensatzes für jede Bedingung beträgt 2.000, 1.500, 1.500 bzw. 1.000 Bilder.
Der Evaluationsdatensatz umfasst 100 Bilder, davon 70 mit erheblichen Konflikten, 20 mit leichten Konflikten und 10 ohne Konflikte.
Цитати
"Hoher Absatzschuh mit ⋯"
"Zwei Tiger, die auf einem Feld stehen ⋯"
"Ein Mädchen mit einer Tasche ⋯ im Anime-Stil"
"Iron Man, der vor den Pyramiden in Ägypten Gitarre spielt"