Der Artikel stellt EDTalk, ein neuartiges System zur effizienten Entkopplung von Gesichtskomponenten in latente Räume, vor. Der Kerngedanke ist es, jeden Raum durch orthogonale Basen darzustellen, die in dedizierten Banken gespeichert werden. Es wird eine effiziente Trainingsstrategie vorgeschlagen, die die räumlichen Informationen automatisch auf jeden Raum verteilt, ohne auf externe oder vorherige Strukturen angewiesen zu sein. Durch die Integration dieser Räume ermöglicht EDTalk die audiogesteuerte Erzeugung von Sprechenden-Kopf-Videos über ein leichtgewichtiges Audio-zu-Bewegung-Modul. Experimente zeigen die Überlegenheit des Verfahrens bei der Erzielung entkoppelter und präziser Kontrolle über verschiedene Gesichtsbewegungen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shuai Tan,Bi... alle arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01647.pdfDomande più approfondite