Der Artikel stellt eine neuartige Methode zur Verbesserung der semantischen Ausrichtung von Text und Bild in Text-zu-Bild-Diffusionsmodellen vor. Die Kernidee ist es, die objektbasierte Struktur von Textbeschreibungen auszunutzen, um ein objektzentriertes energiebasiertes Aufmerksamkeitsausrichtungsverfahren zu entwickeln.
Zunächst wird die Objektstruktur der Textbeschreibung extrahiert, indem Nomen als Objekttokens und zugehörige Modifikatoren identifiziert werden. Darauf aufbauend wird ein objektzentriertes energiebasiertes Modell definiert, das die Wahrscheinlichkeit der Modifikatortokens unter Berücksichtigung der Objekttokens maximiert. Dies führt zu einem objektzentrierten Attributbindungsverlust, der sowohl die Intensität der Objektaufmerksamkeit als auch die Ausrichtung der Attribut-Objekt-Aufmerksamkeit berücksichtigt.
Zusätzlich wird ein objektzentrierter Intensitätsregularisierer eingeführt, um ein übermäßiges Verschieben der Objektaufmerksamkeit hin zu ihren Attributen zu verhindern. Umfangreiche qualitative und quantitative Experimente, einschließlich Bewertungen durch Menschen, auf mehreren anspruchsvollen Benchmarks zeigen die überlegene Leistung der vorgeschlagenen Methode gegenüber früheren Ansätzen. Die Ergebnisse demonstrieren, dass der Ansatz vielversprechend ist, um die textgesteuerte Bildbearbeitungsfähigkeit von Diffusionsmodellen weiter zu verbessern.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문