Core Concepts
本研究は、テキストプロンプトに基づいたビデオ編集を効率的に行うための新しいフレームワークMaskINTを提案する。MaskINTは、キーフレームの共同編集と構造を考慮したフレーム補間の2段階のパイプラインで構成されており、ペアのテキスト-ビデオデータセットを必要とせずに高品質なビデオを生成できる。
Abstract
本研究は、テキストプロンプトに基づいたビデオ編集を効率的に行うためのMaskINTフレームワークを提案している。
まず、MaskINTはビデオ編集タスクを2つの段階に分離する。第1段階では、事前学習済みのテキスト-画像ディフュージョンモデルを使用して、入力ビデオの最初のフレームと最後のフレームを共同で編集する。第2段階では、構造を考慮した非自己回帰型のマスクトランスフォーマーを導入し、編集されたキーフレームを基に中間フレームを補間する。
この2段階のアプローチにより、MaskINTは大規模なビデオのみのデータセットを使用して学習できるため、ペアのテキスト-ビデオデータセットを必要としない。また、非自己回帰型の生成により、大幅な処理時間の短縮を実現している。
実験結果から、MaskINTはディフュージョンベースの手法と同等の性能を達成しつつ、5-7倍高速な推論時間を実現できることが示された。本研究は、テキストプロンプトに基づくビデオ編集の実用的な解決策を提供するだけでなく、マスク型生成トランスフォーマーのこの分野における可能性を示している。
Stats
提案手法MaskINTは、ディフュージョンベースの手法と比較して5-7倍高速な推論時間を実現している。
MaskINTは、ディフュージョンベースの手法と同等の性能を達成している。