Unser Verfahren verwendet ein generatives Modell, das ausgehend von einer grob bearbeiteten Eingabe ein fotorealistisches Ausgabebild synthetisiert, das dem vorgegebenen Layout folgt. Der Schlüsselaspekt ist, dass Videos eine leistungsfähige Quelle für die Überwachung dieser Aufgabe sind: Objekte und Kamerabewegungen liefern viele Beobachtungen dazu, wie sich die Welt mit Blickwinkel, Beleuchtung und physikalischen Interaktionen verändert. Wir erstellen einen Bilddatensatz, bei dem jede Stichprobe ein Paar aus Quell- und Zielrahmen ist, die aus demselben Video in zufällig gewählten Zeitintervallen extrahiert wurden. Wir verzerren den Quellrahmen in Richtung des Ziels unter Verwendung von zwei Bewegungsmodellen, die die erwarteten Testzeit-Benutzereditionen nachahmen. Unser Modelldesign ermöglicht explizit den Transfer feiner Details vom Quellrahmen zum generierten Bild, während es dem vom Benutzer angegebenen Layout genau folgt.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hadi Alzayer... kl. arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13044.pdfDybere Forespørgsler