Das VCD-Framework besteht aus drei Stufen:
T2V VCD: Generiert Ausgangsvideos mit niedriger Auflösung unter Verwendung eines Identitätsmoduls und eines Bewegungsmoduls.
Face VCD: Verbessert die Gesichtsmerkmale der Identität, indem die Gesichter in den Videos separat hochskaliert und unter Verwendung des Identitätsmoduls weiter verfeinert werden.
Tiled VCD: Skaliert die Videos auf eine höhere Auflösung, ohne die Identitätsmerkmale zu beeinträchtigen, indem die Videos in Kacheln unterteilt und einzeln mit dem Identitätsmodul verfeinert werden.
Das Kernstück des Frameworks ist das Identitätsmodul, das eine verbesserte Version der Textual Inversion (TI) verwendet. Es nutzt mehrere Texttoken, um die Identität präziser darzustellen, und verwendet eine Prompt-to-Segmentation-Komponente, um den Hintergrund von der Identität zu trennen. Darüber hinaus wird ein 3D-Gauß'scher Rauschprior verwendet, um die Bewegungskonsistenz über die Frames hinweg zu verbessern.
Die Experimente zeigen, dass das VCD-Framework im Vergleich zu bestehenden Methoden deutlich bessere Ergebnisse in Bezug auf Identitätserhaltung, Textausrichtung und zeitliche Konsistenz erzielt.
翻譯成其他語言
從原文內容
arxiv.org
深入探究