Centrala begrepp
실제 대화 상황에서 말하는 사람과 듣는 사람의 통합적인 3D 인체 동작을 동시에 생성하는 방법을 제안한다.
Sammanfattning
이 논문은 실제 대화 상황에서 말하는 사람과 듣는 사람의 통합적인 3D 인체 동작을 동시에 생성하는 방법을 제안한다.
먼저, 말하는 사람과 듣는 사람의 3D 인체 동작을 각각 생성하기 위해 VQ-VAE 네트워크를 사용한다. 이때 오디오 특징을 에너지, 피치, 스타일 등으로 분해하여 입력하여 더 현실적이고 조화로운 동작을 생성한다.
다음으로, 말하는 사람과 듣는 사람 간의 상호 영향을 고려하기 위해 체인 구조의 자기회귀 변환기 모델을 제안한다. 이를 통해 말하는 사람과 듣는 사람의 동작을 동시에 생성할 수 있다.
실험 결과, 제안 방법은 기존 방법 대비 더 조화롭고 다양한 동작을 생성할 수 있음을 보였다. 또한 새로운 대화 데이터셋인 HoCo를 제공하여 향후 연구에 활용할 수 있도록 하였다.
Statistik
말하는 사람의 동작 생성 시 기존 방법 대비 Frechet Gesture Distance(FGD)가 27.6% 향상되었다.
말하는 사람의 동작 생성 시 Variation이 46.2% 향상되었다.
말하는 사람과 듣는 사람의 동작 생성 시 Concordance Correlation Coefficient(CCC)가 13.4% 향상되었다.
말하는 사람과 듣는 사람의 동작 간 동기화(Time Lagged Cross Correlation)가 18.1% 향상되었다.
Citat
"실제 대화 상황에서 참여자 간 상호 영향을 고려하는 것이 중요하다."
"말하는 사람과 듣는 사람의 동작을 동시에 생성하는 것이 기존 방법의 한계를 극복할 수 있다."
"오디오 특징을 에너지, 피치, 스타일 등으로 분해하여 입력하는 것이 더 현실적이고 조화로운 동작 생성에 도움이 된다."