Der Artikel präsentiert ScanTalk, ein neuartiges Framework für sprachgesteuerte 3D-Gesichtsanimation. Im Gegensatz zu bestehenden Methoden ist ScanTalk in der Lage, 3D-Gesichter unabhängig von deren Topologie zu animieren, einschließlich gescannter Daten.
Der Kern des Ansatzes ist ein Encoder-Decoder-Modell, das aus zwei Hauptmodulen besteht:
Diese Beschreibungen werden dann mit den Audiofunktionen kombiniert und an einen DiffusionNet-Decoder übergeben, der die Deformation des neutralen Gesichts vorhersagt.
ScanTalk überwindet die Einschränkungen bestehender Methoden, die an eine feste Topologie gebunden sind. Stattdessen kann ScanTalk beliebige 3D-Gesichter, einschließlich gescannter Daten, animieren. Die Ergebnisse zeigen, dass ScanTalk vergleichbare Leistung wie der Stand der Technik erzielt, während es gleichzeitig die Flexibilität bietet, mit verschiedenen Topologien umzugehen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Federico Noc... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10942.pdfConsultas más profundas