Core Concepts
コンテキストを考慮した話す顔のビデオ生成は、新しい設定であり、音声とコンテキストを活用して高品質なビデオを生成する方法を提供します。
Abstract
この論文では、コンテキストに応じた話す顔のビデオ生成に焦点を当てています。具体的には、音声とマスクされた領域が与えられたコンテキストビデオからターゲットのビデオを生成する方法を提案しています。提案手法は、2段階のクロスモーダル制御ジェネレーションパイプラインとMVControlNetを使用しています。実験結果は、他のベースラインよりも優れた品質であることを示しています。
Stats
arXiv:2402.18092v1 [cs.CV] 28 Feb 2024