Die Studie führt eine neue Methode namens "ReimaginedAct" ein, die es ermöglicht, Menschenaktionen in Videos basierend auf Textanweisungen oder Fragen zu bearbeiten. Im Gegensatz zu herkömmlichen Video-Bearbeitungsmethoden, die sich auf Änderungen von Attributen, Hintergründen und Stilen beschränken, zielt ReimaginedAct darauf ab, offene und vielfältige Änderungen von Menschenaktionen in Videos vorherzusagen.
ReimaginedAct besteht aus mehreren Modulen:
Um die Leistung von Text-zu-Pose-Video-Bearbeitung zu evaluieren, wurde außerdem der WhatifVideo-1.0-Datensatz eingeführt, der Videos mit verschiedenen Szenarien und Schwierigkeitsgraden sowie zugehörige Fragen und Textaufforderungen enthält.
Die Experimente zeigen, dass ReimaginedAct im Vergleich zu anderen Methoden deutlich bessere Ergebnisse bei der Bearbeitung von Menschenaktionen in Videos erzielt, auch bei offenen und hypothetischen Fragen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Lan Wang,Vis... pada arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07198.pdfPertanyaan yang Lebih Dalam