Hochwertige Videosynthese durch hybride Diffusionsmodelle mit 2D-Triplanenrepräsentation und 3D-Wavelet-Darstellung
Unser Ansatz kombiniert eine 2D-Triplanenrepräsentation, die globale Kontextinformationen erfasst, mit einer 3D-Wavelet-Darstellung, die lokale Volumeninformationen bereitstellt. Durch die Integration dieser beiden Darstellungen über einen Kreuzaufmerksamkeitsmechanismus können wir eine umfassendere Videorepräsentation erstellen, die zu einer verbesserten Videosynthese führt.