Der Artikel stellt EDTalk, ein neuartiges System zur effizienten Entkopplung von Gesichtskomponenten in latente Räume, vor. Der Kerngedanke ist es, jeden Raum durch orthogonale Basen darzustellen, die in dedizierten Banken gespeichert werden. Es wird eine effiziente Trainingsstrategie vorgeschlagen, die die räumlichen Informationen automatisch auf jeden Raum verteilt, ohne auf externe oder vorherige Strukturen angewiesen zu sein. Durch die Integration dieser Räume ermöglicht EDTalk die audiogesteuerte Erzeugung von Sprechenden-Kopf-Videos über ein leichtgewichtiges Audio-zu-Bewegung-Modul. Experimente zeigen die Überlegenheit des Verfahrens bei der Erzielung entkoppelter und präziser Kontrolle über verschiedene Gesichtsbewegungen.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Shuai Tan,Bi... о arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01647.pdfГлибші Запити