Core Concepts
제안된 Learn2Talk 프레임워크는 2D 얼굴 애니메이션 방법의 전문성을 활용하여 더 나은 3D 얼굴 애니메이션 네트워크를 구축할 수 있다.
Abstract
이 논문은 음성 구동 3D 얼굴 애니메이션 분야에서 새로운 학습 프레임워크인 Learn2Talk를 제안한다. Learn2Talk는 2D 얼굴 애니메이션 방법의 두 가지 전문성을 활용하여 3D 얼굴 애니메이션 네트워크를 개선한다.
첫째, 오디오-비디오 동기화 네트워크에서 영감을 얻어 3D 입술 동기화 전문가 모델인 SyncNet3D를 고안했다. 이를 통해 오디오와 3D 얼굴 움직임 간의 동기화를 더 잘 모델링할 수 있다.
둘째, 2D 얼굴 애니메이션 방법에서 선별된 교사 모델을 사용하여 오디오-3D 움직임 회귀 네트워크의 학습을 안내함으로써 3D 정점 정확도를 높였다.
실험 결과, 제안된 프레임워크는 입술 동기화, 정점 정확도 및 음성 인지 측면에서 최신 기술을 능가한다. 또한 음성 구동 3D Gaussian Splatting 기반 아바타 애니메이션을 구현하여 새로운 응용 분야를 보여준다.
Stats
3D 얼굴 애니메이션 방법은 2D 얼굴 애니메이션 방법에 비해 입술 동기화와 음성 인지 측면에서 뒤처지고 있다.
제안된 SyncNet3D는 오디오와 3D 움직임 간의 동기화를 더 잘 모델링할 수 있다.
2D 얼굴 애니메이션 방법에서 선별된 교사 모델을 사용하여 3D 정점 정확도를 향상시킬 수 있다.
Quotes
"제안된 프레임워크는 입술 동기화, 정점 정확도 및 음성 인지 측면에서 최신 기술을 능가한다."
"음성 구동 3D Gaussian Splatting 기반 아바타 애니메이션을 구현하여 새로운 응용 분야를 보여준다."