Die Studie führt eine neue Methode namens "ReimaginedAct" ein, die es ermöglicht, Menschenaktionen in Videos basierend auf Textanweisungen oder Fragen zu bearbeiten. Im Gegensatz zu herkömmlichen Video-Bearbeitungsmethoden, die sich auf Änderungen von Attributen, Hintergründen und Stilen beschränken, zielt ReimaginedAct darauf ab, offene und vielfältige Änderungen von Menschenaktionen in Videos vorherzusagen.
ReimaginedAct besteht aus mehreren Modulen:
Um die Leistung von Text-zu-Pose-Video-Bearbeitung zu evaluieren, wurde außerdem der WhatifVideo-1.0-Datensatz eingeführt, der Videos mit verschiedenen Szenarien und Schwierigkeitsgraden sowie zugehörige Fragen und Textaufforderungen enthält.
Die Experimente zeigen, dass ReimaginedAct im Vergleich zu anderen Methoden deutlich bessere Ergebnisse bei der Bearbeitung von Menschenaktionen in Videos erzielt, auch bei offenen und hypothetischen Fragen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Lan Wang,Vis... alle arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07198.pdfDomande più approfondite