UniEditは、事前学習されたテキストからビデオを生成するジェネレータを活用し、ビデオのモーションと外観を統一的に編集することができる。モーション編集では、時間的自己注意層を活用してテキスト指導のモーションを注入し、空間的自己注意層を活用して元のビデオの内容を保持する。外観編集では、空間的自己注意層を活用して元のビデオの構造を保持する。
ユーザーが直感的なドラッグ操作を行うことで、自然で正確な編集結果を得られ、かつ時空間的な整合性も保たれるビデオ編集手法を提案する。
ExpressEditは、自然言語テキストとスケッチを使ってビデオ編集を行うことができるマルチモーダルなシステムである。システムは、自然言語コマンドから(1)時間的参照、(2)空間的参照、(3)編集操作と設定を解釈し、それに基づいてビデオ編集を実行する。
ビデオ編集コンポーネントの普遍的な表現学習に焦点を当て、新しい方法論を提案し、優れた結果を達成した。
提案するAVIDモデルは、動画の時間的整合性を保ちつつ、様々な動画長さに対応し、異なる構造的忠実度を必要とするインペイントタスクに柔軟に対応できる。
EffiVEDは、テキスト指示に基づくビデオ編集技術を紹介し、既存の画像編集データセットとリアルワールドのビデオを広範囲なビデオ編集データに変換する革新的な戦略を開発します。
人間のアクションを予測し、効果的な編集を実現する新しい手法「ReimaginedAct」を紹介。