Der Artikel stellt eine neuartige Methode zur Stilübertragung vor, die auf der Manipulation der Selbstaufmerksamkeitsschichten (self-attention) in großen, vortrainierten Diffusionsmodellen basiert.
Zunächst wird beobachtet, dass die Aufmerksamkeitskarten in Diffusionsmodellen eine wichtige Rolle für die räumliche Struktur der generierten Bilder spielen. Basierend darauf wird vorgeschlagen, den Schlüssel (key) und den Wert (value) der Selbstaufmerksamkeit des Inhaltsbilds durch die entsprechenden Merkmale des Stilbilds zu ersetzen. Dies ermöglicht es, die Textur des Stilbilds auf das Inhaltsbild zu übertragen, ohne dass eine Optimierung oder Supervision erforderlich ist.
Um Probleme wie die Störung des Originalinhalts und die Farbunstimmigkeit zu beheben, werden zusätzlich drei Komponenten vorgeschlagen:
Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode die Leistung bestehender Methoden zur Stilübertragung deutlich übertrifft und den aktuellen Stand der Technik erreicht.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jiwoo Chung,... klokken arxiv.org 03-21-2024
https://arxiv.org/pdf/2312.09008.pdfDypere Spørsmål