Das CALS-Framework besteht aus zwei Modulen: Audio-to-Lip und Lip-to-Face.
Das Audio-to-Lip-Modul lernt, die Audioeingabe unter Berücksichtigung des phonetischen Kontexts in kontextualisierte Lippenbewegungseinheiten zu übersetzen. Dazu wird ein maskiertes Lernverfahren verwendet, bei dem das Modell die fehlenden Lippenbewegungen der maskierten Audiobereiche vorhersagen muss. Dadurch kann das Modell die Beziehungen zwischen Phones und synchronisierten Lippenbewegungen lernen.
Das Lip-to-Face-Modul nutzt dann diese kontextualisierten Lippenbewegungseinheiten, um das Gesicht der Zielidentität mit kontextbewusster Lippensynchronisation zu synthetisieren.
Durch umfangreiche Experimente auf den Datensätzen LRW, LRS2 und HDTF konnte gezeigt werden, dass die Berücksichtigung des phonetischen Kontexts die Synchronisation deutlich verbessert. Im Vergleich zu anderen State-of-the-Art-Methoden, die auf Merkmalsdisentanglement, Hilfsmodule oder zwischengeschaltete strukturelle Darstellungen setzen, ist der Ansatz, den phonetischen Kontext explizit für die Modellierung der Lippenbewegung zu nutzen, effektiver für eine präzise Lippensynchronisation.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Se Jin Park,... om arxiv.org 04-02-2024
https://arxiv.org/pdf/2305.19556.pdfDiepere vragen