核心概念
ガウシアンスプラッティングを用いて、顔の構造を保持しながら、滑らかで連続的な変形を適用することで、高品質かつ正確なトーキングヘッド合成を実現する。
要約
本論文は、ラジアンスフィールドを用いたトーキングヘッド合成手法の問題点を指摘し、それを解決するための新しい手法を提案している。
具体的には以下の3つの主要な貢献がある:
-
顔の構造を保持しながら、変形を適用することで、急激な外観変化に起因する顔の歪みを回避する。これにより、より正確で完全な顔の特徴を合成できる。
-
顔領域と口内領域を別々に学習することで、両者の不整合な動きを解決し、より正確な口の動きを再現できるようにする。
-
段階的なサンプリング戦略を導入することで、変形の学習を安定化させ、より滑らかな動きを生成できるようにする。
これらの工夫により、提案手法は従来手法と比べて、高品質な映像合成、優れた口パク同期、高い効率性を実現している。
統計
提案手法は従来手法と比べて、PSNRが33.61と最も高い。
提案手法のLPIPSは0.0259と最も低く、SSIMは0.910と最も高い。これは、顔の特徴を高精度に再現できていることを示している。
提案手法のランドマーク距離(LMD)は2.586と最も低く、上下顔の動作誤差(AUE)も0.53/0.22と最も小さい。これは、口パク同期が最も優れていることを示している。
提案手法の学習時間は0.5時間と最も短く、推論速度は108FPSと最も高速である。
引用
"ガウシアンスプラッティングを用いて、顔の構造を保持しながら、滑らかで連続的な変形を適用することで、高品質かつ正確なトーキングヘッド合成を実現する。"
"顔領域と口内領域を別々に学習することで、両者の不整合な動きを解決し、より正確な口の動きを再現できるようにする。"
"段階的なサンプリング戦略を導入することで、変形の学習を安定化させ、より滑らかな動きを生成できるようにする。"