Core Concepts
본 연구는 음성 정보를 입력으로 하여 사실적이고 자연스러운 3D 감정 표현 페이셜 애니메이션을 생성하는 CSTalk 기법을 제안한다. 이를 위해 서로 다른 얼굴 부위 간의 상관관계를 모델링하고, 이를 생성 모델의 학습 과정에 활용하여 보다 사실적인 표정 생성을 달성한다.
Abstract
본 연구는 음성 기반 3D 감정 표현 페이셜 애니메이션 생성을 위한 CSTalk 기법을 제안한다. 기존 연구들은 주로 입술 움직임 정렬에 초점을 맞추었지만, 자연스러운 표정 생성에는 한계가 있었다.
CSTalk은 다음과 같은 핵심 구성 요소를 가진다:
오디오 특징 추출을 위한 Wav2vec 2.0 인코더
얼굴 움직임 파라미터 생성을 위한 TCN 기반 디코더
얼굴 부위 간 상관관계 모델링을 위한 트랜스포머 인코더 기반 상관관계 모듈
상관관계 모듈의 출력을 활용하여 생성 모델을 감독하는 손실 함수
상관관계 모듈은 얼굴 부위 간 물리적 제약과 감정 표현 패턴을 학습하여, 이를 생성 모델의 학습 과정에 반영함으로써 보다 자연스러운 표정 생성을 달성한다.
실험 결과, CSTalk은 기존 최신 기법들에 비해 우수한 입술 동기화 성능과 감정 표현 품질을 보여주었다. 또한 메타휴먼 캐릭터 모델 기반의 파라미터화된 접근법을 통해 보다 세부적이고 자연스러운 애니메이션 생성이 가능하다.
Stats
입술 움직임 오차(LVE)가 2.538mm로 기존 최신 기법들(FaceFormer 3.511mm, EmoTalk 2.954mm)보다 우수하다.
감정 표현 오차(EVE)가 2.084mm로 기존 최신 기법들(FaceFormer 3.069mm, EmoTalk 2.875mm)보다 우수하다.
Quotes
"본 연구는 음성 정보를 입력으로 하여 사실적이고 자연스러운 3D 감정 표현 페이셜 애니메이션을 생성하는 CSTalk 기법을 제안한다."
"상관관계 모듈은 얼굴 부위 간 물리적 제약과 감정 표현 패턴을 학습하여, 이를 생성 모델의 학습 과정에 반영함으로써 보다 자연스러운 표정 생성을 달성한다."