Core Concepts
ユーザーが直感的なドラッグ操作を行うことで、自然で正確な編集結果を得られ、かつ時空間的な整合性も保たれるビデオ編集手法を提案する。
Abstract
本論文では、ドラッグ操作によるビデオ編集手法「DragVideo」を提案する。従来のビデオ編集手法では、ユーザーの意図を正確に反映させることや、編集後の時空間的な整合性を保つことが課題となっていた。
DragVideoでは以下の手順で編集を行う:
入力ビデオに対してサンプル固有のLoRAを学習し、元のビデオの特徴を保持する。
ユーザーが最初と最後のフレームでドラッグ操作を行うと、その情報が全フレームに伝播される。
ドラッグ操作に応じて、ビデオの潜在表現を最適化する。ここでは、ビデオレベルのドラッグ目的関数を用いて、ノイズの多い潜在表現を更新する。
最後に、相互自己注意機構を用いて、最適化された潜在表現からノイズを除去し、編集後のビデオを生成する。
実験の結果、DragVideoは直感的な操作性と正確な編集結果、そして時空間的な整合性を両立できることが示された。従来手法であるプロンプトベースの編集手法やDragDiffの単純な動画への適用では、これらの課題に直面するが、DragVideoはそれらの問題を解決できることが確認された。
Stats
ドラッグ操作によって、ビデオ内の物体の形状、表情、レイアウトなどを自然に変更できる。
ドラッグ操作に応じて、時空間的に整合性の高い編集結果を生成できる。
単一のRTX-4090またはRTX-A6000 GPUで、エンドツーエンドの処理が可能である。
Quotes
"ユーザーが直感的なドラッグ操作を行うことで、自然で正確な編集結果を得られ、かつ時空間的な整合性も保たれる"
"DragVideoは、直感的な操作性と正確な編集結果、そして時空間的な整合性を両立できる"