Core Concepts
人間のアクションを予測し、効果的な編集を実現する新しい手法「ReimaginedAct」を紹介。
Abstract
1. 導入
テキストに基づくビデオ編集モデルは進化しているが、人間のアクションの操作には苦戦している。
ReimaginedActは、直接的な指示や質問に応じて開かれた結果を予測し、ビデオを編集することができる。
2. 開発方法
LLMを使用して初期回答を取得し、行動ポーズデータセットと組み合わせて最終ビデオ生成に使用。
Grounded-SAMモデルで個々の認識およびPose Editingモジュールで姿勢変更。
3. 実験結果
WhatifVideo-1.0データセットで他手法と比較。ReimaginedActが高い性能を示す。
Tune-A-VideoやFate-Zeroなどのベースラインと比較して、Vid-AccやVid-Conで優れた結果を達成。
4. 結論と展望
複雑なシナリオに対処するためにさらなる改善が必要。
WhatifVideo-1.0データセットは将来的な評価に役立つ。
Quotes
"ReimaginedAct comprises video understanding, reasoning, and editing modules."
"Our method allows for changes in the background, objects, style, events that have already occurred in the video."