Core Concepts
本研究は、音声入力に同期した高品質な話し頭ビデオを生成するための新しい2段階の運動分離型拡散モデルを提案する。
Abstract
本研究は、高品質な話し頭ビデオを生成するための新しい2段階の運動分離型拡散モデル「MoDiTalker」を提案している。
まず、Audio-to-Motion (AToM)モジュールでは、音声入力から同期した口の動きを生成する。AToMは、音声特徴と初期ランドマークを条件として、ランドマークの差分を予測する拡散モデルである。口の動きと口以外の部分を別々に処理することで、より正確な口の動きを生成できる。
次に、Motion-to-Video (MToV)モジュールでは、AToMで生成したランドマークを条件として、高品質な話し頭ビデオを生成する。MToVは、効率的なトライプレーン表現を用いた拡散モデルであり、アイデンティティ情報とポーズ情報も条件として利用することで、時間的整合性の高いビデオを生成できる。
実験の結果、提案手法は既存のGAN系およびDiffusion系の手法を大きく上回る性能を示した。特に、生成ビデオの品質、口の同期精度、アイデンティティ保持の面で優れた結果が得られた。また、提案手法は既存のDiffusion系手法と比べて大幅に高速な推論が可能であることも示された。
Stats
提案手法のFIDスコアは14.15で、既存手法と比べて大幅に優れている。
提案手法のPSNRは35.82で、既存手法を大きく上回る。
提案手法のLPIPSは0.01と非常に低く、生成ビデオの高品質さを示している。
提案手法のCSIMは0.92と高く、アイデンティティ保持が良好である。
提案手法のLMDは1.38と低く、口の動きの精度が高い。
提案手法のLSE-Dは9.15と既存手法と同等の口の同期精度を示している。