이 논문은 음성 구동 얼굴 애니메이션 합성 문제를 다룬다. 기존 방법들은 주로 사실적인 얼굴 움직임 합성에 초점을 맞추었지만, 얼굴 움직임의 잠재적 확률적 특성을 고려하지 않았다. 이 논문에서는 다양한 얼굴 움직임 샘플을 생성하고 샘플 다양성을 장려하는 방법을 제안한다.
구체적으로, 논문에서는 벡터 양자화 변분 자동 인코더(VQ-VAE)를 사용하여 얼굴 기하학 정보를 저차원 이산 잠재 공간에 학습한다. 그리고 이 잠재 공간에서 다양한 코드를 쿼리하여 다양한 얼굴 움직임 샘플을 생성한다. 또한 부분적인 얼굴 움직임 제어를 위해 순차적 모델링 기법을 도입한다.
실험 결과, 제안 방법은 기존 방법 대비 얼굴 움직임 다양성과 제어성 측면에서 우수한 성능을 보였다. 특히 폐쇄음 발음 시 입술 움직임을 정확하게 모사하는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chunzhi Gu, ... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19143.pdfDeeper Inquiries