Der Artikel stellt eine neuartige Methode zur Stilübertragung vor, die auf der Manipulation der Selbstaufmerksamkeitsschichten (self-attention) in großen, vortrainierten Diffusionsmodellen basiert.
Zunächst wird beobachtet, dass die Aufmerksamkeitskarten in Diffusionsmodellen eine wichtige Rolle für die räumliche Struktur der generierten Bilder spielen. Basierend darauf wird vorgeschlagen, den Schlüssel (key) und den Wert (value) der Selbstaufmerksamkeit des Inhaltsbilds durch die entsprechenden Merkmale des Stilbilds zu ersetzen. Dies ermöglicht es, die Textur des Stilbilds auf das Inhaltsbild zu übertragen, ohne dass eine Optimierung oder Supervision erforderlich ist.
Um Probleme wie die Störung des Originalinhalts und die Farbunstimmigkeit zu beheben, werden zusätzlich drei Komponenten vorgeschlagen:
Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode die Leistung bestehender Methoden zur Stilübertragung deutlich übertrifft und den aktuellen Stand der Technik erreicht.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Jiwoo Chung,... في arxiv.org 03-21-2024
https://arxiv.org/pdf/2312.09008.pdfاستفسارات أعمق