toplogo
サインイン

화자 특화 3D 가우시안 스플래팅을 통한 화자 특화 대화형 헤드 합성


核心概念
화자 특화 3D 가우시안 스플래팅을 통해 정확한 입술 동기화와 탁월한 시각적 품질의 대화형 헤드 비디오를 생성한다.
要約

이 논문은 화자 특화 대화형 헤드 합성을 위한 GaussianTalker 프레임워크를 제안한다. GaussianTalker는 FLAME 모델과 통합된 3D 가우시안 스플래팅을 활용하여 다중 모달 데이터를 화자와 연관시킴으로써 오디오, 3D 메시, 비디오 간의 잠재적인 아이덴티티 편향을 줄인다.

화자 특화 FLAME 트랜슬레이터는 아이덴티티 디커플링과 개인화된 임베딩을 사용하여 화자의 고유한 말하기 스타일에 맞는 정확한 입술 동기화를 달성한다. 동적 가우시안 렌더러는 화자 특화 블렌드 셰이프를 도입하여 기하학적 및 텍스처 세부 사항을 개선함으로써 사실적인 시각적 효과를 제공한다.

광범위한 실험 결과는 GaussianTalker가 기존 최첨단 방법을 능가하는 입술 동기화 정확도와 이미지 품질을 달성한다는 것을 보여준다. 또한 NVIDIA RTX4090 GPU에서 130 FPS의 렌더링 속도를 달성하여 실시간 성능을 크게 초과하며, 다른 하드웨어 플랫폼에도 배포될 수 있다.

edit_icon

要約をカスタマイズ

edit_icon

AI でリライト

edit_icon

引用を生成

translate_icon

原文を翻訳

visual_icon

マインドマップを作成

visit_icon

原文を表示

統計
화자 특화 FLAME 트랜슬레이터는 화자의 고유한 말하기 스타일에 맞는 정확한 입술 동기화를 달성한다. 동적 가우시안 렌더러는 화자 특화 블렌드 셰이프를 통해 기하학적 및 텍스처 세부 사항을 개선하여 사실적인 시각적 효과를 제공한다. GaussianTalker는 NVIDIA RTX4090 GPU에서 130 FPS의 렌더링 속도를 달성하여 실시간 성능을 크게 초과한다.
引用
"화자 특화 3D 가우시안 스플래팅을 통해 정확한 입술 동기화와 탁월한 시각적 품질의 대화형 헤드 비디오를 생성한다." "GaussianTalker는 NVIDIA RTX4090 GPU에서 130 FPS의 렌더링 속도를 달성하여 실시간 성능을 크게 초과한다."

抽出されたキーインサイト

by Hongyun Yu,Z... 場所 arxiv.org 04-23-2024

https://arxiv.org/pdf/2404.14037.pdf
GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian  Splatting

深掘り質問

화자 특화 FLAME 트랜슬레이터와 동적 가우시안 렌더러의 상호작용이 어떻게 화자 특화 대화형 헤드 합성을 가능하게 하는지 자세히 설명해 주세요.

화자 특화 FLAME 트랜슬레이터는 오디오 신호를 특정 화자의 FLAME 매개변수 시퀀스로 변환하여 얼굴 애니메이션을 제어합니다. 이 모듈은 오디오 인코더를 통해 화자 신원 정보와 콘텐츠 정보를 분리하고, 개인화된 임베딩을 통합하여 화자 특화 기능을 구현합니다. 또한, SelfTalk를 참조하여 자체 감독 기반의 입술 동기화 제약 메커니즘을 도입하여 입술 움직임의 동기화를 더욱 정교하게 조정합니다. 이 모듈은 오디오 특징 추출, FLAME 매개변수 생성, 입술 부드러움 및 잠재적 일관성을 포함한 다양한 학습 목표를 가지고 있습니다. 동적 가우시안 렌더러는 FLAME 삼각형에 가우시안을 연결하여 표현력 있는 얼굴 표현을 가능하게 합니다. 이 방법은 FLAME의 BlendShapes와 Skin Weights를 활용하여 가우시안의 변형을 제어합니다. 또한, 얼굴 렌더링의 기하학적 및 질감적 세부 사항을 향상시키기 위해 일부 화자 특화 BlendShapes를 도입합니다. 이 모듈은 Inpainting Generator를 통해 렌더링된 얼굴을 원본 이미지와 원활하게 통합하여 최종 프레임의 시각적 연속성을 향상시킵니다.
0
star