Centrala begrepp
Durch die Verbesserung der beiden Eingaben - Rauschen und Textprompt - kann die diffusionsbasierte Text-zu-Video-Generierung deutlich verbessert werden.
Sammanfattning
Der Artikel präsentiert POS, eine Prompt-Optimierungs-Suite, um die diffusionsbasierte Text-zu-Video-Generierung zu verbessern. POS besteht aus zwei Hauptkomponenten:
Optimaler Rausch-Approximator (ONA):
Beobachtung: Unterschiedliches Rauschen führt zu stark variierenden Videoquali-täten, obwohl der gleiche Textprompt verwendet wird.
Idee: Es gibt ein optimales Rauschen für jeden Textprompt, das approximiert werden kann.
Vorgehen: Suche nach einem ähnlichen Video zum Textprompt und Invertierung in den Raumraum, um das optimale Rauschen zu approximieren. Alternativ kann ein Rausch-Vorhersage-Netzwerk trainiert werden, um das optimale Rauschen direkt zu generieren.
Semantik-erhaltender Rewriter (SPR):
Beobachtung: Einfaches Umschreiben von Textprompts mit LLMs führt oft zu semantischer Abweichung.
Idee: Referenz-geführtes Umschreiben und Denoising mit Hybrid-Semantik, um Details hinzuzufügen und die Semantik beizubehalten.
Vorgehen: Referenzsätze werden als Vorlage für das LLM-Umschreiben verwendet. Denoising verwendet den umgeschriebenen Text in frühen Schritten, den Originaltext in späteren Schritten, um Semantik zu erhalten.
Umfangreiche Experimente auf gängigen Benchmarks zeigen, dass POS die Text-zu-Video-Modelle deutlich verbessern kann.
Statistik
Unterschiedliches Rauschen kann zu stark variierenden Videoqualitäten führen, obwohl der gleiche Textprompt verwendet wird.
Es gibt ein optimales Rauschen für jeden Textprompt, das approximiert werden kann.
Einfaches Umschreiben von Textprompts mit LLMs führt oft zu semantischer Abweichung.
Citat
"Video generation shows instability in terms of noise. Given the same text, different noises lead to videos that differ significantly in terms of both frame quality and temporal consistency."
"Improving the text prompt via LLMs often causes semantic deviation."