In dieser Arbeit stellen wir einen neuartigen Lernansatz für die vorwärtsgerichtete Einfach-4D-Kopfavatarsynthese vor. Im Gegensatz zu bestehenden Methoden, die oft aus der Rekonstruktion von Monokulärvideos unter Anleitung von 3DMM lernen, verwenden wir Pseudo-Mehrfachansichten-Videos, um einen 4D-Kopfsynthesizer in datengesteuerter Weise zu lernen, ohne auf die ungenaue 3DMM-Rekonstruktion angewiesen zu sein, die sich nachteilig auf die Syntheseleistung auswirken kann.
Der Schlüsselgedanke ist es zunächst, einen 3D-Kopfsynthesizer zu lernen, der synthetische Mehrfachansichtsbilder verwendet, um Monokulärvideos in Mehrfachansichten umzuwandeln, und dann die Pseudo-Mehrfachansichtsvideos zu nutzen, um einen 4D-Kopfsynthesizer über Kreuzansicht-Selbstreenactment zu lernen. Durch die Nutzung eines einfachen Vision-Transformer-Rückgrats mit bewegungsorientierten Kreuzaufmerksamkeiten zeigt unser Verfahren eine überlegene Leistung im Vergleich zu früheren Methoden in Bezug auf Rekonstruktionstreue, Geometriekonsistenz und Bewegungssteuerungsgenauigkeit.
Wir hoffen, dass unser Verfahren neuartige Erkenntnisse für die Integration von 3D-Priors mit 2D-Supervisionen für eine verbesserte 4D-Kopfavatarkreation bietet.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yu Deng,Duom... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13570.pdfDeeper Inquiries