Die Studie führt eine neue Methode namens "ReimaginedAct" ein, die es ermöglicht, Menschenaktionen in Videos basierend auf Textanweisungen oder Fragen zu bearbeiten. Im Gegensatz zu herkömmlichen Video-Bearbeitungsmethoden, die sich auf Änderungen von Attributen, Hintergründen und Stilen beschränken, zielt ReimaginedAct darauf ab, offene und vielfältige Änderungen von Menschenaktionen in Videos vorherzusagen.
ReimaginedAct besteht aus mehreren Modulen:
Um die Leistung von Text-zu-Pose-Video-Bearbeitung zu evaluieren, wurde außerdem der WhatifVideo-1.0-Datensatz eingeführt, der Videos mit verschiedenen Szenarien und Schwierigkeitsgraden sowie zugehörige Fragen und Textaufforderungen enthält.
Die Experimente zeigen, dass ReimaginedAct im Vergleich zu anderen Methoden deutlich bessere Ergebnisse bei der Bearbeitung von Menschenaktionen in Videos erzielt, auch bei offenen und hypothetischen Fragen.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Lan Wang,Vis... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07198.pdfYêu cầu sâu hơn