In dieser Arbeit stellen wir einen Ansatz zur hochqualitativen Erzeugung von Cinemagraphen aus einzelnen Landschaftsbildern vor, der auf einem vortrainierten StyleGAN-Modell basiert.
Zunächst projizieren wir das Eingangsbild in den Latenzraum und den Merkmalsraum des vortrainierten StyleGAN-Modells. Zusätzlich verwenden wir einen Maskenprediktor, um statische und dynamische Regionen im Bild zu identifizieren. Anschließend nutzen wir einen Bewegungsgenerator, um ein Bewegungsfeld zu erzeugen, das die zukünftigen Positionen der Pixel definiert.
Schließlich generieren wir die finalen Cinemagraph-Frames, indem wir die vortrainierten StyleGAN-Schichten mit einer Multi-Skalen-Tiefenmerkmals-Verformung (MSDFW) erweitern. Dabei werden die Tiefenmerkmale des StyleGAN-Modells entsprechend des vorhergesagten Bewegungsfelds verformt, um eine nahtlose Schleifenanimation zu erzeugen.
Unsere Methode hat den Vorteil, dass sie keine aufwendige Modelltrainierung von Grund auf benötigt und gleichzeitig die Auflösung der generierten Cinemagraphen auf 1024x1024 Pixel erhöht. Sowohl qualitative als auch quantitative Ergebnisse zeigen, dass unser Ansatz deutlich besser abschneidet als bestehende Methoden.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Jongwoo Choi... ב- arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14186.pdfשאלות מעמיקות