Der Artikel präsentiert ein trainingsfreies Rahmenwerk für allgemeine Videosynthese, genannt BIVDiff, das spezifische Bilddiffusionsmodelle und allgemeine Text-zu-Video-Diffusionsmodelle miteinander verknüpft.
Das Rahmenwerk besteht aus drei Komponenten:
Frameweise Videogenerierung: Hier wird ein bildspezifisches Diffusionsmodell (z.B. ControlNet) verwendet, um die Videoframes einzeln zu generieren.
Gemischte Invertierung: Die generierten Frames werden dann einer gemischten Invertierung unterzogen, bei der sowohl Bild- als auch Videodiffusionsmodelle verwendet werden. Dies dient dazu, die Latenzverteilung an die Anforderungen des Videodiffusionsmodells anzupassen.
Temporale Glättung des Videos: Schließlich werden die invertierten Latenten in das Videodiffusionsmodell (z.B. VidRD) eingegeben, um eine zeitliche Konsistenz des Videos zu erreichen.
Durch die Entkopplung von Bild- und Videomodellen ermöglicht BIVDiff eine flexible Auswahl von Modellen für verschiedene Synthesezwecke, was zu einer starken Aufgabengeneralisierung und hoher Effizienz führt.
Umfangreiche Experimente zu verschiedenen Videosynthese-Aufgaben wie kontrollierter Videogenerierung, Videobearbeitung und Videoinpainting zeigen die Effektivität und Allgemeingültigkeit des Ansatzes.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問