DreamMotion ist ein neuartiger Ansatz zur textgesteuerten Videoanpassung, der sich von den üblichen Methoden der rückwärtigen Diffusion abhebt. Anstatt mit Standardrauschen oder invertierten Latenzdarstellungen zu beginnen, startet DreamMotion mit einem Eingangsvideo, das eine zeitlich konsistente, natürliche Bewegung aufweist, und versucht dann, die Erscheinung des Videos schrittweise zu modifizieren, während die Integrität der Bewegung erhalten bleibt.
Dazu verwendet DreamMotion einen Delta-Denoising-Score-Gradienten innerhalb von Text-zu-Video-Diffusionsmodellen, um die Zielerscheinung in das Video einzubringen. Um Unschärfe und Übersteuerung zu vermeiden, werden diese Gradienten mit zusätzlichen binären Maskenbedingungen gefiltert. Obwohl diese Optimierung die Zielerscheinung effektiv einfügt, neigt sie dazu, strukturelle Fehler anzuhäufen, was zu Abweichungen in der Bewegung über die endgültigen Ausgabeframes hinweg führt. Um dies anzugehen, präsentiert DreamMotion Methoden zur Regularisierung der Raum-Zeit-Selbstähnlichkeit. Durch Ausrichtung der räumlichen Selbstähnlichkeit der Diffusionsmerkmale zwischen dem Original- und dem bearbeiteten Video wird die Strukturintegrität und die Gesamtbewegung erhalten, während die Erscheinung nahtlos modifiziert wird. Darüber hinaus ermöglicht die Sicherstellung der zeitlichen Selbstähnlichkeit zwischen den beiden Merkmalen ein effektives zeitliches Glätten, um mögliche Verzerrungen in den optimierten Bereichen zu verhindern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hyeonho Jeon... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12002.pdfDeeper Inquiries