Der Artikel präsentiert ein trainingsfreies Rahmenwerk für allgemeine Videosynthese, genannt BIVDiff, das spezifische Bilddiffusionsmodelle und allgemeine Text-zu-Video-Diffusionsmodelle miteinander verknüpft.
Das Rahmenwerk besteht aus drei Komponenten:
Frameweise Videogenerierung: Hier wird ein bildspezifisches Diffusionsmodell (z.B. ControlNet) verwendet, um die Videoframes einzeln zu generieren.
Gemischte Invertierung: Die generierten Frames werden dann einer gemischten Invertierung unterzogen, bei der sowohl Bild- als auch Videodiffusionsmodelle verwendet werden. Dies dient dazu, die Latenzverteilung an die Anforderungen des Videodiffusionsmodells anzupassen.
Temporale Glättung des Videos: Schließlich werden die invertierten Latenten in das Videodiffusionsmodell (z.B. VidRD) eingegeben, um eine zeitliche Konsistenz des Videos zu erreichen.
Durch die Entkopplung von Bild- und Videomodellen ermöglicht BIVDiff eine flexible Auswahl von Modellen für verschiedene Synthesezwecke, was zu einer starken Aufgabengeneralisierung und hoher Effizienz führt.
Umfangreiche Experimente zu verschiedenen Videosynthese-Aufgaben wie kontrollierter Videogenerierung, Videobearbeitung und Videoinpainting zeigen die Effektivität und Allgemeingültigkeit des Ansatzes.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Fengyuan Shi... at arxiv.org 04-10-2024
https://arxiv.org/pdf/2312.02813.pdfDeeper Inquiries