Centrala begrepp
Durch einfache Manipulation der Merkmale in der Selbstaufmerksamkeit können große, vortrainierte Diffusionsmodelle effizient für die Stilübertragung genutzt werden, ohne dass eine Optimierung oder Supervision erforderlich ist.
Sammanfattning
Der Artikel stellt eine neuartige Methode zur Stilübertragung vor, die auf der Manipulation der Selbstaufmerksamkeitsschichten (self-attention) in großen, vortrainierten Diffusionsmodellen basiert.
Zunächst wird beobachtet, dass die Aufmerksamkeitskarten in Diffusionsmodellen eine wichtige Rolle für die räumliche Struktur der generierten Bilder spielen. Basierend darauf wird vorgeschlagen, den Schlüssel (key) und den Wert (value) der Selbstaufmerksamkeit des Inhaltsbilds durch die entsprechenden Merkmale des Stilbilds zu ersetzen. Dies ermöglicht es, die Textur des Stilbilds auf das Inhaltsbild zu übertragen, ohne dass eine Optimierung oder Supervision erforderlich ist.
Um Probleme wie die Störung des Originalinhalts und die Farbunstimmigkeit zu beheben, werden zusätzlich drei Komponenten vorgeschlagen:
- Erhaltung der Abfrage (query preservation), um die räumliche Struktur des Originalinhalts beizubehalten
- Skalierung der Aufmerksamkeitstemperatur (attention temperature scaling), um die Aufmerksamkeitskarte zu schärfen
- Initiale latente AdaIN, um die Farbverteilung des Stilbilds korrekt auf das Ergebnis zu übertragen.
Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode die Leistung bestehender Methoden zur Stilübertragung deutlich übertrifft und den aktuellen Stand der Technik erreicht.
Statistik
Die Standardabweichung der Aufmerksamkeitskarte vor dem Softmax-Schritt wird durch die Stilinjektion verringert.
Die durchschnittliche Ratio der Standardabweichung zwischen Aufmerksamkeitskarten mit und ohne Stilinjektion beträgt 1,499.
Citat
"Durch einfache Manipulation der Merkmale in der Selbstaufmerksamkeit können große, vortrainierte Diffusionsmodelle effizient für die Stilübertragung genutzt werden, ohne dass eine Optimierung oder Supervision erforderlich ist."
"Um Probleme wie die Störung des Originalinhalts und die Farbunstimmigkeit zu beheben, werden zusätzlich drei Komponenten vorgeschlagen: Erhaltung der Abfrage, Skalierung der Aufmerksamkeitstemperatur und initiale latente AdaIN."