In dieser Arbeit untersuchen wir die Entwicklung von Diffusionsmodellen für die Videosynthese. Wir stellen fest, dass die naive Erweiterung des Rauschmodells von Bildgenerierungsmodellen auf Videomodelle zu suboptimaler Leistung führt. Stattdessen schlagen wir ein sorgfältig entworfenes Rauschmodell vor, das die natürlichen Korrelationen zwischen Videoframes besser erfasst. Umfangreiche experimentelle Validierung zeigt, dass unser Modell, Preserve Your Own COrrelation (PYoCo), auf den UCF-101- und MSR-VTT-Benchmarks zu Spitzenergebnissen bei der textgesteuerten Videosynthese führt. Es erreicht auch auf dem kleinen UCF-101-Benchmark eine Spitzenqualität bei der Videogenerierung mit einem 10-mal kleineren Modell und deutlich weniger Rechenaufwand als die bisherige Forschung.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies