Hochwertige und zeitlich konsistente Synthese von Kopfbewegungen durch Sprachsteuerung
Wir präsentieren einen neuartigen generativen Ansatz zur Synthese hochqualitativer und zeitlich konsistenter 3D-Bewegungssequenzen sprechender menschlicher Köpfe aus Audiosignalen. Unser Verfahren nutzt diffusionsbasierte Modelle, um die Ausdrucksvielfalt neuronaler parametrischer Kopfmodelle zu erfassen und realistische, synchronisierte Kopfanimationen zu erzeugen.