本研究では、音声的文脈を活用した話す顔の生成フレームワーク「Context-Aware Lip-Sync (CALS)」を提案している。CALSは、Audio-to-Lip モジュールと Lip-to-Face モジュールから構成される。
Audio-to-Lipモジュールは、マスク学習を用いて各音素を文脈化された唇の動きユニットにマッピングする。これにより、音声-唇の相関を構築しつつ、音素の文脈情報を活用することができる。
Lip-to-Faceモジュールは、この文脈化された唇の動きユニットを利用して、対象の顔アイデンティティに合わせて唇の動きを統合し、文脈を考慮した話す顔を生成する。
実験の結果、提案手法は従来手法に比べて時空間的な整合性が高く、より自然な唇の動きを生成できることが示された。また、音声の文脈情報を活用する際の最適な時間窓が約1.2秒であることも明らかになった。
翻譯成其他語言
從原文內容
arxiv.org
深入探究