Core Concepts
提案するAVIDモデルは、動画の時間的整合性を保ちつつ、様々な動画長さに対応し、異なる構造的忠実度を必要とするインペイントタスクに柔軟に対応できる。
Abstract
本研究では、テキストガイド動画インペイントに取り組む。動画インペイントには主に3つの課題がある。1つ目は、合成された内容の時間的整合性を維持すること。2つ目は、オブジェクトの置換、テクスチャの変更、アンクロッピングなど、様々なインペイントタイプに対応する必要があること。3つ目は、入力動画の長さが可変であるため、任意の長さの動画に対応できる必要があること。
提案するAVIDモデルでは、以下の取り組みを行っている。
時間的整合性を確保するため、テキストガイド画像インペイントモデルにモーションモジュールを統合した。
異なる構造的忠実度を必要とするインペイントタイプに対応するため、構造ガイダンスモジュールを導入した。
任意の長さの動画に対応するため、時間的マルチディフュージョンサンプリングパイプラインと中間フレームアテンションガイダンスメカニズムを提案した。
実験の結果、提案手法は様々なインペイントタイプ、マスク領域サイズ、動画長さに対して高品質な結果を生成できることが示された。
Stats
"黄色のカエデの葉。" (2.7秒)
"道を走るMINIクーパー。" (5.3秒)
"山の中を渡る列車。" (8.0秒)