AnyV2V ist ein universeller Rahmenwerk, der Videobearbeitung in zwei Hauptschritte unterteilt:
Bildbearbeitung des ersten Frames: AnyV2V verwendet ein vortrainiertes Bildbearbeitungsmodell, um den ersten Frame des Quelivideos zu editieren. Dies ermöglicht eine präzise Kontrolle über die Bearbeitung, da AnyV2V mit einer Vielzahl von Bildbearbeitungsmodellen kompatibel ist, wie z.B. InstructPix2Pix für textbasierte Bearbeitung, NST für Stilübertragung, AnyDoor für subjektgesteuerte Bearbeitung und InstantID für Identitätsmanipulation.
Bild-zu-Video-Generierung: Im zweiten Schritt verwendet AnyV2V ein bestehendes Bild-zu-Video-Generierungsmodell, um die DDIM-Invertierung des Quelivideos durchzuführen und die Merkmale des editierten ersten Frames in den Denoising-Prozess zu injizieren. Dies stellt sicher, dass das generierte Video die Erscheinung und Bewegung des Quelivideos beibehält.
Durch diese zweistufige Herangehensweise kann AnyV2V eine Vielzahl von Videobearbeitungsaufgaben wie textbasierte Bearbeitung, stilbasierte Übertragung, subjektgesteuerte Bearbeitung und Identitätsmanipulation bewältigen. Die Experimente zeigen, dass AnyV2V die Leistung bestehender Methoden übertrifft und eine hohe Erfolgsquote bei neuartigen Aufgaben erreicht.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы