Core Concepts
Unser Verfahren überträgt feine Details aus dem Originalbild und bewahrt die Identität seiner Teile, passt es aber an die durch die neue Anordnung definierte Beleuchtung und den Kontext an.
Abstract
Unser Verfahren verwendet ein generatives Modell, das ausgehend von einer grob bearbeiteten Eingabe ein fotorealistisches Ausgabebild synthetisiert, das dem vorgegebenen Layout folgt. Der Schlüsselaspekt ist, dass Videos eine leistungsfähige Quelle für die Überwachung dieser Aufgabe sind: Objekte und Kamerabewegungen liefern viele Beobachtungen dazu, wie sich die Welt mit Blickwinkel, Beleuchtung und physikalischen Interaktionen verändert. Wir erstellen einen Bilddatensatz, bei dem jede Stichprobe ein Paar aus Quell- und Zielrahmen ist, die aus demselben Video in zufällig gewählten Zeitintervallen extrahiert wurden. Wir verzerren den Quellrahmen in Richtung des Ziels unter Verwendung von zwei Bewegungsmodellen, die die erwarteten Testzeit-Benutzereditionen nachahmen. Unser Modelldesign ermöglicht explizit den Transfer feiner Details vom Quellrahmen zum generierten Bild, während es dem vom Benutzer angegebenen Layout genau folgt.
Stats
Wir verwenden einen Datensatz von 12 Millionen 5-10 Sekunden langen Videoclips aus Stockvideos, aus denen wir 2,5 Millionen Bildpaare extrahieren.
Quotes
"Unser Schlüsseleinblick ist, dass Videos eine leistungsfähige Quelle der Überwachung für diese Aufgabe sind: Objekte und Kamerabewegungen liefern viele Beobachtungen dazu, wie sich die Welt mit Blickwinkel, Beleuchtung und physikalischen Interaktionen verändert."
"Unser Modelldesign ermöglicht explizit den Transfer feiner Details vom Quellrahmen zum generierten Bild, während es dem vom Benutzer angegebenen Layout genau folgt."