Das vorgestellte Rahmenwerk ermöglicht die Erstellung personalisierter Gesichtsbilder, bei denen Identität, Ausdruck und Hintergrund gleichzeitig kontrolliert werden können. Es verwendet mehrere Eingabemodule, darunter einen Textprompt für den Hintergrund, ein Selbstporträtfoto des Nutzers für die Identität und einen Textprompt für den Ausdruck.
Das technische Kernstück ist ein neuartiges Diffusionsmodell, das "Simultanes Gesichtstausch und Reenactment" (SFSR) durchführen kann. Dieses Modell enthält mehrere innovative Designs, wie einen ausgewogenen Identitäts- und Ausdrucksencoder, ein verbessertes Midpoint-Sampling und eine explizite Hintergrundkonditionierung, um die Kontrollierbarkeit und Bildqualität zu erhöhen.
Umfangreiche Experimente zeigen, dass das Rahmenwerk in der Lage ist, hochwertige Gesichtsbilder mit feingranularer Ausdruckskontrolle zu erzeugen, die die Identität des Nutzers beibehalten. Es übertrifft den Stand der Technik bei Text-zu-Bild-Methoden, Gesichtstausch und Gesichtsreenactment.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Renshuai Liu... о arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.01207.pdfГлибші Запити