核心概念
Unser Ansatz verwendet ein speziell entworfenes Rauschmodell, das die natürlichen Korrelationen zwischen Videoframes besser erfasst, um einen leistungsfähigen textgesteuerten Videosynthese-Diffusionsmodell zu entwickeln.
要約
In dieser Arbeit untersuchen wir die Entwicklung von Diffusionsmodellen für die Videosynthese. Wir stellen fest, dass die naive Erweiterung des Rauschmodells von Bildgenerierungsmodellen auf Videomodelle zu suboptimaler Leistung führt. Stattdessen schlagen wir ein sorgfältig entworfenes Rauschmodell vor, das die natürlichen Korrelationen zwischen Videoframes besser erfasst. Umfangreiche experimentelle Validierung zeigt, dass unser Modell, Preserve Your Own COrrelation (PYoCo), auf den UCF-101- und MSR-VTT-Benchmarks zu Spitzenergebnissen bei der textgesteuerten Videosynthese führt. Es erreicht auch auf dem kleinen UCF-101-Benchmark eine Spitzenqualität bei der Videogenerierung mit einem 10-mal kleineren Modell und deutlich weniger Rechenaufwand als die bisherige Forschung.
統計
Die Rauschkarten, die den einzelnen Videoframes entsprechen, weisen eine hohe Korrelation auf, wenn sie aus demselben Video stammen.
Die durchschnittliche paarweise Kosinusähnlichkeit der Rauschkarten aus demselben Video beträgt 0,206 ± 0,156, während sie für Rauschkarten aus verschiedenen Videos nur 0,001 ± 0,009 beträgt.
引用
"Die Verwendung eines i.i.d.-Rauschmodells (orange Punkte) für das Finetuning von Bildgenerierungsmodellen für die Videosynthese ist nicht ideal, da die zeitlichen Korrelationen zwischen den Frames nicht modelliert werden."
"Unser progressives Rauschmodell (blaue Punkte) erfasst die in den Videorauschkarten vorhandenen Korrelationen angemessen."