이 논문은 실시간 고품질 3D 대화형 얼굴 합성을 위한 GaussianTalker 프레임워크를 제안합니다. 주요 내용은 다음과 같습니다:
3D 가우시안 스플래팅(3DGS) 표현을 활용하여 빠른 렌더링 속도를 달성합니다. 3DGS는 기존 NeRF 기반 방식보다 훨씬 빠른 렌더링 속도를 제공합니다.
다해상도 트라이플레인 표현을 통해 3D 가우시안의 공간 정보를 인코딩하고, 이를 오디오 특징과 결합하는 공간-오디오 어텐션 메커니즘을 도입합니다. 이를 통해 정확한 입술 동기화와 얼굴 표정 제어를 실현합니다.
단계별 최적화 전략을 통해 안정적인 학습을 보장하고, 다양한 입력 조건을 활용하여 오디오 관련 움직임과 비관련 움직임을 효과적으로 분리합니다.
실험 결과, GaussianTalker는 기존 NeRF 기반 방식보다 월등한 렌더링 속도와 입술 동기화 정확도를 달성하며, 고품질의 3D 대화형 얼굴을 실시간으로 합성할 수 있음을 보여줍니다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések