Kernekoncepter
UniEditは、事前学習されたテキストからビデオを生成するジェネレータを活用し、ビデオのモーションと外観を統一的に編集することができる。モーション編集では、時間的自己注意層を活用してテキスト指導のモーションを注入し、空間的自己注意層を活用して元のビデオの内容を保持する。外観編集では、空間的自己注意層を活用して元のビデオの構造を保持する。
Resumé
UniEditは、事前学習されたテキストからビデオを生成するジェネレータを活用し、ビデオのモーションと外観を統一的に編集することができる。
モーション編集では以下の手順を踏む:
元のビデオの内容を保持するために、再構築ブランチを導入し、空間的自己注意層からの特徴を主要な編集パスに注入する。
テキスト指導のモーションを注入するために、モーション参照ブランチを導入し、時間的自己注意層からの特徴を主要な編集パスに注入する。
外観編集では以下の手順を踏む:
再構築ブランチから得られる空間的構造を主要な編集パスに適用することで、元のビデオの構造を保持する。
これらの手法により、UniEditはビデオのモーションと外観を統一的に編集することができ、既存手法を大きく上回るパフォーマンスを示す。
Statistik
事前学習されたテキストからビデオを生成するジェネレータを活用することで、チューニングフリーでビデオの編集が可能である。
再構築ブランチと時間的自己注意層を活用することで、元のビデオの内容を保持しつつ、テキスト指導のモーションを注入できる。
再構築ブランチから得られる空間的構造を活用することで、元のビデオの構造を保持しつつ、外観の編集が可能である。