Concetti Chiave
음성 신호에 따라 다양한 얼굴 움직임을 합성하는 방법을 제안한다. 다양한 얼굴 움직임을 생성하기 위해 코드 다양성을 장려하는 손실 함수를 사용하며, 부분적인 얼굴 움직임 제어를 위해 순차적 모델링 기법을 도입한다.
Sintesi
이 논문은 음성 구동 얼굴 애니메이션 합성 문제를 다룬다. 기존 방법들은 주로 사실적인 얼굴 움직임 합성에 초점을 맞추었지만, 얼굴 움직임의 잠재적 확률적 특성을 고려하지 않았다. 이 논문에서는 다양한 얼굴 움직임 샘플을 생성하고 샘플 다양성을 장려하는 방법을 제안한다.
구체적으로, 논문에서는 벡터 양자화 변분 자동 인코더(VQ-VAE)를 사용하여 얼굴 기하학 정보를 저차원 이산 잠재 공간에 학습한다. 그리고 이 잠재 공간에서 다양한 코드를 쿼리하여 다양한 얼굴 움직임 샘플을 생성한다. 또한 부분적인 얼굴 움직임 제어를 위해 순차적 모델링 기법을 도입한다.
실험 결과, 제안 방법은 기존 방법 대비 얼굴 움직임 다양성과 제어성 측면에서 우수한 성능을 보였다. 특히 폐쇄음 발음 시 입술 움직임을 정확하게 모사하는 것으로 나타났다.
Statistiche
입술 움직임 오차(LVE)는 기존 방법 대비 약 5% 개선되었다.
상단 얼굴 움직임 편차(FDD)는 기존 방법 대비 약 20% 개선되었다.
전체 얼굴 움직임 오차(MVE)는 기존 방법과 유사한 수준을 보였다.
샘플 간 평균 거리(APD)는 기존 방법 대비 약 5배 증가하여 높은 다양성을 달성했다.
Citazioni
"우리의 핵심 통찰은 다양성을 장려하는 손실 함수를 사용하여 표현적인 얼굴 잠재 공간을 탐색하도록 모델을 유도하는 것이다."
"우리의 모델링 프레임워크는 통제 가능(Controllable)하고 다양한(Diverse) 대화형 얼굴 합성을 통일된 형식으로 실현한다."