VIDEOSHOP ist ein neuartiger Ansatz zur Videobearbeitung, der es Nutzern ermöglicht, lokalisierte semantische Änderungen vorzunehmen, ohne dass eine Neutrainierung erforderlich ist. Im Gegensatz zu anderen Videobearbeitungsmethoden, die ganze Videos mit spärlichen Textanweisungen bearbeiten, reduziert VIDEOSHOP das Problem auf die Bildbearbeitung, eine gut erforschte und weit verbreitete Aufgabe im Bildbereich.
Der Schlüssel zu VIDEOSHOP sind zwei technische Erkenntnisse: (1) Die Videolatents folgen während des Entrauschungsprozesses einem näherungsweise linearen Verlauf, was es ermöglicht, die Rauschextrapolation zur Inversion zu nutzen. (2) Der VAE-Encoder ist unnormiert, was zu einer hohen Varianz in der Größe der Latents führt. VIDEOSHOP normiert und skaliert die Latents, um Konsistenz und Qualität zu gewährleisten.
VIDEOSHOP kann eine Vielzahl von Bearbeitungsarten unterstützen, darunter das Hinzufügen, Entfernen oder semantische Ändern von Objekten, das Einfügen von Stockfotos in Videos usw. mit feingranularer Kontrolle über Ort und Erscheinungsbild. Die Experimente zeigen, dass VIDEOSHOP die Leistung bestehender Methoden in Bezug auf Bearbeitungstreue und Quellentreue übertrifft, während es die zeitliche Konsistenz bewahrt.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Xiang Fan,An... klokken arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14617.pdfDypere Spørsmål