In dieser Arbeit untersuchen wir die Entwicklung von Diffusionsmodellen für die Videosynthese. Wir stellen fest, dass die naive Erweiterung des Rauschmodells von Bildgenerierungsmodellen auf Videomodelle zu suboptimaler Leistung führt. Stattdessen schlagen wir ein sorgfältig entworfenes Rauschmodell vor, das die natürlichen Korrelationen zwischen Videoframes besser erfasst. Umfangreiche experimentelle Validierung zeigt, dass unser Modell, Preserve Your Own COrrelation (PYoCo), auf den UCF-101- und MSR-VTT-Benchmarks zu Spitzenergebnissen bei der textgesteuerten Videosynthese führt. Es erreicht auch auf dem kleinen UCF-101-Benchmark eine Spitzenqualität bei der Videogenerierung mit einem 10-mal kleineren Modell und deutlich weniger Rechenaufwand als die bisherige Forschung.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Songwei Ge,S... ב- arxiv.org 03-27-2024
https://arxiv.org/pdf/2305.10474.pdfשאלות מעמיקות