核心概念
本稿では、長編ビデオにおける一貫性のある編集を実現する、グローバルおよびローカルビデオ編集のための統合時空間ビデオ適応フレームワークVIAを提案する。
摘要
VIA:長編ビデオ編集のための統合時空間ビデオ適応フレームワーク
本稿では、最大1分間の長編ビデオにおいて、正確で一貫性のある編集を実現する、グローバルおよびローカルビデオ編集のための統合時空間ビデオ適応フレームワークVIAが提案されています。
テスト時編集適応: 事前学習済み画像編集モデルを適応させ、編集の指示とテキスト指示の間の一貫性を向上させ、正確なローカル制御を実現します。
時空間適応: キーフレームで一貫性のある注意変数を再帰的に収集し、シーケンス全体に戦略的に適用することで、編集効果を実現します。
長編ビデオ編集: 従来手法では困難であった1分間の長編ビデオにおいて、一貫性のある編集を実現します。
ベースライン手法との比較: VIAは、従来手法と比較して、ソースビデオに忠実で、時空間的により一貫性があり、ローカル制御においてより正確な編集結果を生成することを示しています。
定量評価: 人間評価と自動評価により、編集品質と効率の両方において、VIAが既存の手法よりも優れたパフォーマンスを発揮することを実証しています。