이 논문은 화자 특화 대화형 헤드 합성을 위한 GaussianTalker 프레임워크를 제안한다. GaussianTalker는 FLAME 모델과 통합된 3D 가우시안 스플래팅을 활용하여 다중 모달 데이터를 화자와 연관시킴으로써 오디오, 3D 메시, 비디오 간의 잠재적인 아이덴티티 편향을 줄인다.
화자 특화 FLAME 트랜슬레이터는 아이덴티티 디커플링과 개인화된 임베딩을 사용하여 화자의 고유한 말하기 스타일에 맞는 정확한 입술 동기화를 달성한다. 동적 가우시안 렌더러는 화자 특화 블렌드 셰이프를 도입하여 기하학적 및 텍스처 세부 사항을 개선함으로써 사실적인 시각적 효과를 제공한다.
광범위한 실험 결과는 GaussianTalker가 기존 최첨단 방법을 능가하는 입술 동기화 정확도와 이미지 품질을 달성한다는 것을 보여준다. 또한 NVIDIA RTX4090 GPU에서 130 FPS의 렌더링 속도를 달성하여 실시간 성능을 크게 초과하며, 다른 하드웨어 플랫폼에도 배포될 수 있다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hongyun Yu,Z... kl. arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.14037.pdfDybere Forespørgsler