Die Studie präsentiert DiffusionAct, ein neuartiges Verfahren für neuronale Gesichtsrekonstruktion, das auf einem vortrainierten Diffusions-Autoencoder-Modell basiert. Im Gegensatz zu GAN-basierten Methoden, die oft zu Verzerrungen und visuellen Artefakten führen, oder StyleGAN2-basierten Ansätzen, die Schwierigkeiten bei der Rekonstruktion von Identität und Erscheinungsmerkmalen haben, nutzt DiffusionAct die fotorealistische Bildgenerierung von Diffusionsmodellen.
Der Schlüssel ist die Steuerung des semantischen Raums des Diffusions-Autoencoders, um die Gesichtspose des Eingabebilds zu bearbeiten. Dazu wird ein "Rekonstruktions-Encoder" trainiert, der die Erscheinungsmerkmale der Quellperson und die Zielpose in einem semantischen Code enkodiert. Dieser Code wird dann vom DDIM-Modell dekodiert, um das rekonstruierte Bild zu generieren.
Die Studie zeigt umfangreiche quantitative und qualitative Ergebnisse auf den VoxCeleb1- und VoxCeleb2-Datensätzen, sowohl für Selbst- als auch Kreuzrekonstruktion. Der Vergleich mit 9 state-of-the-art-Methoden zeigt, dass DiffusionAct in der Lage ist, artefaktfreie Bilder zu generieren und die Zielpose präzise zu übertragen, während die Identität und Erscheinung der Quellperson über verschiedene herausfordernde Bedingungen hinweg treu rekonstruiert werden.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Stella Bouna... klokken arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17217.pdfDypere Spørsmål