이 연구는 연설자의 음성만을 입력으로 사용하여 청자의 지속적인 머리 동작 반응을 실시간으로 생성하는 데이터 기반 모델을 제안한다. 기존 연구들은 청자의 머리 동작을 단순한 고개 끄덕임/흔들기로 단순화하거나 연설자의 음성과 얼굴 제스처를 모두 사용했다.
제안 모델은 그래프 기반의 엔코더-디코더 구조를 사용한다. 엔코더는 연설자의 음성을 그래프로 표현하고 이를 잠재 표현으로 변환한다. 디코더는 이 잠재 표현을 사용하여 청자의 머리 자세(roll, pitch, yaw)를 실시간으로 생성한다. 모델은 평균 절대 오차 4.5도로 우수한 성능을 보이며, 초당 86프레임의 속도로 실시간 생성이 가능하다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問