المفاهيم الأساسية
EMAGE는 오디오와 부분적으로 마스크된 제스처를 활용하여 얼굴 표정, 신체 동작, 손 움직임, 전신 이동을 포함한 통합 전신 제스처를 생성하는 프레임워크이다.
الملخص
이 논문은 EMAGE라는 통합 전신 제스처 생성 프레임워크를 소개한다. EMAGE는 오디오와 부분적으로 마스크된 제스처를 입력으로 받아 얼굴 표정, 신체 동작, 손 움직임, 전신 이동을 포함한 통합 전신 제스처를 생성한다.
논문의 주요 내용은 다음과 같다:
BEAT2 데이터셋 소개: BEAT2는 SMPLX 바디와 FLAME 헤드 파라미터를 통합한 새로운 메시 수준의 음성-제스처 데이터셋이다. 이를 통해 다양한 하위 영역에서의 통합 학습과 평가가 가능해졌다.
EMAGE 프레임워크 제안: EMAGE는 마스크된 제스처 복원과 오디오 기반 제스처 생성을 동시에 최적화한다. 이를 통해 부분적으로 마스크된 제스처를 입력받아 오디오와 동기화된 통합 제스처를 생성할 수 있다. 또한 EMAGE는 분리된 오디오 인코더와 다중 VQ-VAE 디코더를 활용하여 얼굴, 상체, 손, 하체 동작을 효과적으로 모델링한다.
다중 데이터셋 학습 능력: EMAGE는 BEAT2 외에도 Trinity, AMASS 등의 데이터셋을 활용하여 학습할 수 있다. 이를 통해 다양한 제스처 데이터를 효과적으로 활용할 수 있다.
실험 결과, EMAGE는 기존 최신 방법들에 비해 우수한 성능을 보였으며, 부분적으로 마스크된 제스처를 입력받아 오디오와 동기화된 통합 제스처를 생성할 수 있음을 확인하였다.
الإحصائيات
제스처 데이터셋 BEAT2는 60시간 분량의 데이터를 포함하고 있다.
EMAGE는 4프레임의 시드 제스처를 입력받아 오디오와 동기화된 통합 제스처를 생성할 수 있다.
اقتباسات
"EMAGE는 오디오와 부분적으로 마스크된 제스처를 입력으로 받아 얼굴 표정, 신체 동작, 손 움직임, 전신 이동을 포함한 통합 전신 제스처를 생성한다."
"BEAT2는 SMPLX 바디와 FLAME 헤드 파라미터를 통합한 새로운 메시 수준의 음성-제스처 데이터셋이다."