Die Studie präsentiert DiffusionAct, ein neuartiges Verfahren für neuronale Gesichtsrekonstruktion, das auf einem vortrainierten Diffusions-Autoencoder-Modell basiert. Im Gegensatz zu GAN-basierten Methoden, die oft zu Verzerrungen und visuellen Artefakten führen, oder StyleGAN2-basierten Ansätzen, die Schwierigkeiten bei der Rekonstruktion von Identität und Erscheinungsmerkmalen haben, nutzt DiffusionAct die fotorealistische Bildgenerierung von Diffusionsmodellen.
Der Schlüssel ist die Steuerung des semantischen Raums des Diffusions-Autoencoders, um die Gesichtspose des Eingabebilds zu bearbeiten. Dazu wird ein "Rekonstruktions-Encoder" trainiert, der die Erscheinungsmerkmale der Quellperson und die Zielpose in einem semantischen Code enkodiert. Dieser Code wird dann vom DDIM-Modell dekodiert, um das rekonstruierte Bild zu generieren.
Die Studie zeigt umfangreiche quantitative und qualitative Ergebnisse auf den VoxCeleb1- und VoxCeleb2-Datensätzen, sowohl für Selbst- als auch Kreuzrekonstruktion. Der Vergleich mit 9 state-of-the-art-Methoden zeigt, dass DiffusionAct in der Lage ist, artefaktfreie Bilder zu generieren und die Zielpose präzise zu übertragen, während die Identität und Erscheinung der Quellperson über verschiedene herausfordernde Bedingungen hinweg treu rekonstruiert werden.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문