Die Studie präsentiert TrailBlazer, einen Algorithmus zur Steuerung der Trajektorie und Bewegung von Objekten in diffusionsbasierten Videosynthesesystemen. TrailBlazer baut auf einem vortrainierten Textzu-Video-Modell auf und ermöglicht es Nutzern, die Position, Größe und Bewegung von Objekten durch einfache Begrenzungsboxen zu kontrollieren, ohne dass zusätzliches Training oder Optimierung erforderlich ist.
Der Kern des Ansatzes liegt in der Bearbeitung der räumlichen und zeitlichen Aufmerksamkeitskarten des Modells während des Denoising-Prozesses. Durch das Einfügen von Aufmerksamkeitsgewichtungen in den Begrenzungsboxen können die Nutzer die Bewegung und Identität der Objekte steuern, ohne komplexe Steuersignale wie Kantenkarten oder Tiefenkarten erstellen zu müssen.
TrailBlazer ermöglicht verschiedene Arten der Objektsteuerung, wie statische oder dynamische Begrenzungsboxen, Morphing zwischen Objekten und Keyframing der Bewegung. Die Ergebnisse zeigen, dass die Methode eine natürliche Bewegung der Objekte erzeugt, einschließlich Perspektiveffekten und korrekter Ausrichtung der Objekte. Darüber hinaus ist TrailBlazer einfach zu implementieren und erfordert nur minimale Änderungen am Basismodell.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Wan-Duo Kurt... ב- arxiv.org 04-10-2024
https://arxiv.org/pdf/2401.00896.pdfשאלות מעמיקות