核心概念
Einführung einer neuartigen Methode zur Text-zu-Pose-Video-Bearbeitung, die es ermöglicht, offene und vielfältige Änderungen von Menschenaktionen in Videos vorzunehmen, basierend auf Textanweisungen oder Fragen.
摘要
Die Studie führt eine neue Methode namens "ReimaginedAct" ein, die es ermöglicht, Menschenaktionen in Videos basierend auf Textanweisungen oder Fragen zu bearbeiten. Im Gegensatz zu herkömmlichen Video-Bearbeitungsmethoden, die sich auf Änderungen von Attributen, Hintergründen und Stilen beschränken, zielt ReimaginedAct darauf ab, offene und vielfältige Änderungen von Menschenaktionen in Videos vorherzusagen.
ReimaginedAct besteht aus mehreren Modulen:
- Ein Sprachmodell (LLM) wird verwendet, um eine plausible Antwort auf die Anweisung oder Frage zu erhalten.
- Basierend auf der Antwort des LLM wird ein Grounded-SAM-Modell eingesetzt, um die relevanten Personen in dem Video zu identifizieren.
- Eine Datenbank mit Posen-Videos wird durchsucht, um die am besten passenden Posen-Videos für die Bearbeitung zu finden.
- Die extrahierten Posen aus dem Originalbild werden mit den ausgewählten Posen-Videos abgeglichen und angepasst.
- Ein Text-zu-Pose-Diffusionsmodell wird verwendet, um das endgültige bearbeitete Video zu generieren, wobei eine neuartige Zeitschritt-Aufmerksamkeitsblendung eingesetzt wird, um die Konsistenz zwischen Original- und bearbeitetem Video zu gewährleisten.
Um die Leistung von Text-zu-Pose-Video-Bearbeitung zu evaluieren, wurde außerdem der WhatifVideo-1.0-Datensatz eingeführt, der Videos mit verschiedenen Szenarien und Schwierigkeitsgraden sowie zugehörige Fragen und Textaufforderungen enthält.
Die Experimente zeigen, dass ReimaginedAct im Vergleich zu anderen Methoden deutlich bessere Ergebnisse bei der Bearbeitung von Menschenaktionen in Videos erzielt, auch bei offenen und hypothetischen Fragen.
统计
"Die Frau stoppt mit dem Yoga."
"Der Mann könnte sich ausruhen oder eine Pause machen."
引用
"ReimaginedAct umfasst Video-Verständnis, Reasoning und Bearbeitungsmodule."
"Um die offene und vielfältige Text-zu-Pose-Video-Bearbeitung zu evaluieren, führen wir den WhatifVideo-1.0-Datensatz ein."