本研究では、写実的な対話型ヒューマンキャラクター生成の分野において、音声駆動リップ動作合成の精度が重要であることに着目した。従来の手法は、生成されるリップ動作の多様性の欠如や時間的な不連続性などの課題を抱えていた。
LawDNetは、局所的アフィン変形メカニズムを提案することで、これらの課題に取り組む。具体的には、特徴マップ上の抽象的なキーポイントに着目し、それらに対する局所的なアフィン変換を学習することで、柔軟かつ効率的な特徴マップの非線形変形を実現する。さらに、時間的な一貫性を向上させるために、空間的ディスクリミネーターと時間的ディスクリミネーターからなる二重ストリーム型のディスクリミネーターを導入している。
実験の結果、LawDNetは従来手法と比較して、SSIM、PSNR、LPIPS、LSE-C、LSE-Dの各指標において優れた性能を示し、生成されるリップ動作の生動性と時間的な一貫性が向上していることが確認された。また、アブレーション実験により、局所的アフィン変形の有効性や、時間的ディスクリミネーターおよび顔の正面化の重要性が明らかになった。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問