Der Artikel stellt EDTalk, ein neuartiges System zur effizienten Entkopplung von Gesichtskomponenten in latente Räume, vor. Der Kerngedanke ist es, jeden Raum durch orthogonale Basen darzustellen, die in dedizierten Banken gespeichert werden. Es wird eine effiziente Trainingsstrategie vorgeschlagen, die die räumlichen Informationen automatisch auf jeden Raum verteilt, ohne auf externe oder vorherige Strukturen angewiesen zu sein. Durch die Integration dieser Räume ermöglicht EDTalk die audiogesteuerte Erzeugung von Sprechenden-Kopf-Videos über ein leichtgewichtiges Audio-zu-Bewegung-Modul. Experimente zeigen die Überlegenheit des Verfahrens bei der Erzielung entkoppelter und präziser Kontrolle über verschiedene Gesichtsbewegungen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Shuai Tan,Bi... pada arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01647.pdfPertanyaan yang Lebih Dalam