Core Concepts
Durch die Integration einer Restlernung mit Referenz auf eine aus dem Eingangsbild abgeleitete Rauschvorlage können Diffusionsmodelle für die Bild-zu-Video-Generierung zeitlich kohärentere und besser an das Eingangsbild angepasste Videos erzeugen.
Abstract
Die Arbeit präsentiert einen neuen Ansatz für die Bild-zu-Video-Generierung (I2V) mit Diffusionsmodellen, der als "Temporal Residual learning with Image noise Prior" (TRIP) bezeichnet wird.
Der Kern der Idee ist es, den üblichen Prozess der Rauschvorhersage in I2V-Diffusionsmodellen als zeitliche Restlernung zu formulieren, bei der eine aus dem Eingangsbild abgeleitete Rauschvorlage als Referenz dient. Konkret besteht TRIP aus zwei Teilpfaden:
Einem Shortcut-Pfad, der die Rauschvorlage basierend auf dem Eingangsbild und den verrauschten Videolatenzcodes berechnet. Diese Rauschvorlage dient dann als Referenzrauschen für jedes Einzelbild.
Einem Residualpfad, der einen 3D-UNet-Encoder verwendet, um das Residualrauschen jedes Einzelbilds unter Berücksichtigung der Rauschvorlage zu schätzen.
Eine transformer-basierte Modul zur zeitlichen Rauschfusion kombiniert dann dynamisch die Referenz- und Residualrauschen, um das endgültige Rauschen für die Videogenerierung zu erhalten.
Umfangreiche Experimente auf verschiedenen Datensätzen zeigen, dass TRIP im Vergleich zu bestehenden Ansätzen deutlich bessere Ergebnisse in Bezug auf zeitliche Kohärenz und visuelle Qualität erzielt. Darüber hinaus lässt sich TRIP auch für die Bildanimation auf Basis von Text-zu-Bild-Modellen einsetzen.
Stats
Die Rauschvorlage ϵi→1
t kann wie folgt berechnet werden:
ϵi→1
t = (zi
t - √¯αt z1
0) / √(1-¯αt)
Quotes
"Durch die Integration einer Restlernung mit Referenz auf eine aus dem Eingangsbild abgeleitete Rauschvorlage können Diffusionsmodelle für die Bild-zu-Video-Generierung zeitlich kohärentere und besser an das Eingangsbild angepasste Videos erzeugen."