Der Artikel stellt eine neuartige Methode zur Stilübertragung vor, die auf der Manipulation der Selbstaufmerksamkeitsschichten (self-attention) in großen, vortrainierten Diffusionsmodellen basiert.
Zunächst wird beobachtet, dass die Aufmerksamkeitskarten in Diffusionsmodellen eine wichtige Rolle für die räumliche Struktur der generierten Bilder spielen. Basierend darauf wird vorgeschlagen, den Schlüssel (key) und den Wert (value) der Selbstaufmerksamkeit des Inhaltsbilds durch die entsprechenden Merkmale des Stilbilds zu ersetzen. Dies ermöglicht es, die Textur des Stilbilds auf das Inhaltsbild zu übertragen, ohne dass eine Optimierung oder Supervision erforderlich ist.
Um Probleme wie die Störung des Originalinhalts und die Farbunstimmigkeit zu beheben, werden zusätzlich drei Komponenten vorgeschlagen:
Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode die Leistung bestehender Methoden zur Stilübertragung deutlich übertrifft und den aktuellen Stand der Technik erreicht.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jiwoo Chung,... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2312.09008.pdfYêu cầu sâu hơn