이 연구는 연설자의 음성만을 입력으로 사용하여 청자의 지속적인 머리 동작 반응을 실시간으로 생성하는 데이터 기반 모델을 제안한다. 기존 연구들은 청자의 머리 동작을 단순한 고개 끄덕임/흔들기로 단순화하거나 연설자의 음성과 얼굴 제스처를 모두 사용했다.
제안 모델은 그래프 기반의 엔코더-디코더 구조를 사용한다. 엔코더는 연설자의 음성을 그래프로 표현하고 이를 잠재 표현으로 변환한다. 디코더는 이 잠재 표현을 사용하여 청자의 머리 자세(roll, pitch, yaw)를 실시간으로 생성한다. 모델은 평균 절대 오차 4.5도로 우수한 성능을 보이며, 초당 86프레임의 속도로 실시간 생성이 가능하다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor