Direkte Generierung von Videogesten, die mit der Sprachausgabe synchronisiert sind, durch ein bewegungsentkoppeltes Diffusionsmodell
Unser Ansatz entkoppelt die menschliche Bewegung von Videos, um latente Bewegungsmerkmale zu extrahieren, die sowohl die komplexen Bewegungstrajektorien als auch die wichtigen Erscheinungsinformationen erfassen. Dann verwenden wir ein transformatorbasiertes Diffusionsmodell, um die inhärente zeitliche Beziehung zwischen Gesten und Sprache zu modellieren, gefolgt von einem Modul zur optimalen Bewegungsauswahl, um diverse und langfristig kohärente Videogesten zu erzeugen.