Die Studie stellt EffiVED vor, ein effizientes Diffusionsmodell für die textgesteuerte Videobearbeitung. Im Gegensatz zu bestehenden Methoden, die eine zeitaufwendige Feinabstimmung oder Optimierung für jedes einzelne Video erfordern, kann EffiVED Videos direkt basierend auf Textanweisungen bearbeiten, ohne zusätzliches Training.
Um dies zu erreichen, entwickeln die Autoren zwei effiziente Workflows, um Datensätze für die Videobearbeitung zu erstellen. Der erste Workflow nutzt Bildbearbeitungsdatensätze und wendet Augmentationen wie zufällige affine Transformationen an, um Videosequenzen zu simulieren. Der zweite Workflow kombiniert verschiedene Sprachmodelle und Techniken wie CoDeF, um Anweisungen und bearbeitete Gegenstücke aus Echtzeit-Videoinhalten zu generieren.
Mit diesen synthetischen Datensätzen trainiert EffiVED ein bedingtes Diffusionsmodell, das einen konditionierten 3D U-Net-Kern verwendet. Durch die Trennung der Führung in visuelle und textuelle Komponenten kann das Modell die Bearbeitung präzise an die Originalvideos und die gegebenen Textanweisungen anpassen.
Die Experimente zeigen, dass EffiVED nicht nur hochwertige Bearbeitungsergebnisse liefert, sondern auch sehr effizient ist. Es ist 6 bis 28 Mal schneller als bestehende Methoden, ohne Abstriche bei der Bearbeitungsqualität machen zu müssen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhenghao Zha... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11568.pdfDeeper Inquiries