Core Concepts
오디오 정보를 활용하여 3D 가우시안 변형 필드를 학습함으로써 빠른 학습 및 실시간 렌더링이 가능한 오디오 구동 대화형 얼굴 생성 모델을 제안한다.
Abstract
이 논문은 오디오 구동 대화형 얼굴 생성을 위한 GSTalker 모델을 제안한다. GSTalker는 3D 가우시안을 이용하여 얼굴을 모델링하고, 오디오 정보를 활용한 변형 필드를 학습함으로써 빠른 학습 및 실시간 렌더링이 가능하다.
구체적으로:
오디오 정보를 활용하여 3D 가우시안의 위치와 모양을 변형시키는 변형 필드를 학습한다. 이를 위해 다중 해상도 해시 그리드 기반 트라이 플레인과 시간적 스무딩 모듈을 도입한다.
상체 부분의 움직임을 모델링하기 위해 자세 조건부 변형 필드를 사용한다.
효율적인 최적화를 위해 얼굴 이미지에서 학습한 정적 가우시안 초기화를 사용한다.
실험 결과, GSTalker는 기존 2D 및 3D NeRF 기반 모델에 비해 훨씬 빠른 학습 및 렌더링 속도를 달성하면서도 높은 품질의 대화형 얼굴 생성 결과를 보여준다.
Stats
제안 모델 GSTalker는 40분의 학습 시간과 125 FPS의 실시간 렌더링 속도를 달성한다.
기존 NeRF 기반 모델들은 수 시간의 학습 시간과 초당 0.08 프레임의 느린 렌더링 속도를 보인다.
Quotes
"GSTalker는 3D 오디오 구동 대화형 얼굴 생성을 위한 가우시안 스플래팅 기반 모델로, 빠른 학습과 실시간 렌더링 속도를 제공한다."
"제안 모델은 오디오 정보를 활용한 변형 가능한 3D 가우시안 필드와 다중 해상도 해시 그리드 기반 트라이 플레인, 시간적 스무딩 모듈을 통해 세부적인 얼굴 특징을 학습한다."