本論文は、ビデオ編集の新しい手法であるVidEditを提案している。VidEditは、テキストベースの編集を可能にしつつ、時間的整合性と空間的制御を備えた効率的なアプローチである。
主な特徴は以下の通り:
ニューラルレイヤードアトラス(NLA)を活用し、ビデオコンテンツを2Dアトラス表現に分解する。これにより時間的整合性が確保される。
事前学習済みのテキスト駆動型ディフュージョンモデルを用いて、アトラス表現の編集を行う。
パノプティックセグメンテーションとエッジ検出を活用し、編集対象領域を正確に特定し、オブジェクトの構造を保持する。
ブレンドされたディフュージョンプロセスにより、編集領域と未編集領域を自然に融合させる。
実験の結果、VidEditは時間的整合性、意味的忠実度、元の映像の保持の面で、他の手法を大きく上回ることが示された。また、1分以内の高速処理が可能で、単一のテキストプロンプトから複数の互換性のある編集を生成できる。
To Another Language
from source content
arxiv.org
Deeper Inquiries