Der Artikel präsentiert ein trainingsfreies Rahmenwerk für allgemeine Videosynthese, genannt BIVDiff, das spezifische Bilddiffusionsmodelle und allgemeine Text-zu-Video-Diffusionsmodelle miteinander verknüpft.
Das Rahmenwerk besteht aus drei Komponenten:
Frameweise Videogenerierung: Hier wird ein bildspezifisches Diffusionsmodell (z.B. ControlNet) verwendet, um die Videoframes einzeln zu generieren.
Gemischte Invertierung: Die generierten Frames werden dann einer gemischten Invertierung unterzogen, bei der sowohl Bild- als auch Videodiffusionsmodelle verwendet werden. Dies dient dazu, die Latenzverteilung an die Anforderungen des Videodiffusionsmodells anzupassen.
Temporale Glättung des Videos: Schließlich werden die invertierten Latenten in das Videodiffusionsmodell (z.B. VidRD) eingegeben, um eine zeitliche Konsistenz des Videos zu erreichen.
Durch die Entkopplung von Bild- und Videomodellen ermöglicht BIVDiff eine flexible Auswahl von Modellen für verschiedene Synthesezwecke, was zu einer starken Aufgabengeneralisierung und hoher Effizienz führt.
Umfangreiche Experimente zu verschiedenen Videosynthese-Aufgaben wie kontrollierter Videogenerierung, Videobearbeitung und Videoinpainting zeigen die Effektivität und Allgemeingültigkeit des Ansatzes.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Fengyuan Shi... : arxiv.org 04-10-2024
https://arxiv.org/pdf/2312.02813.pdfDaha Derin Sorular