Core Concepts
본 연구는 오디오 신호를 입력으로 하여 고품질의 시간적으로 일관된 3D 얼굴 애니메이션을 생성하는 새로운 생성 모델을 제안한다.
Abstract
본 연구는 오디오 신호를 입력으로 하여 고품질의 시간적으로 일관된 3D 얼굴 애니메이션을 생성하는 새로운 생성 모델을 제안한다.
기존 연구들은 2D 영상 기반 또는 3D 모폴로지 모델 기반의 얼굴 애니메이션에 국한되었지만, 본 연구는 신경망 매개변수 헤드 모델(NPHM)을 활용하여 보다 풍부한 기하학적 정보와 세부적인 표현을 가능하게 한다.
제안하는 모델은 오디오 신호와 NPHM 잠재 공간을 결합하여 고품질이면서도 시간적으로 일관된 얼굴 애니메이션을 생성한다.
구체적으로, 오디오 신호를 인코딩하고 NPHM 표현 공간에서 확산 모델을 학습하여 오디오 기반 얼굴 애니메이션을 합성한다.
오디오-NPHM 쌍 데이터가 없는 상황에서, 다중 시점 비디오 데이터를 활용하여 최적화된 NPHM 표현을 생성하는 방법을 제안한다.
실험 결과, 제안 모델은 기존 방법 대비 75% 향상된 사용자 평가 점수를 달성하며, 다양한 표정과 스타일의 사실적인 얼굴 애니메이션을 생성할 수 있음을 보여준다.
Stats
오디오 신호는 Wave2Vec 2.0 모델을 사용하여 인코딩된다.
NPHM 표현 코드는 다중 시점 비디오 데이터를 활용하여 최적화된다.
Quotes
"본 연구는 오디오 신호를 입력으로 하여 고품질의 시간적으로 일관된 3D 얼굴 애니메이션을 생성하는 새로운 생성 모델을 제안한다."
"제안하는 모델은 오디오 신호와 NPHM 잠재 공간을 결합하여 고품질이면서도 시간적으로 일관된 얼굴 애니메이션을 생성한다."