Core Concepts
합성 데이터를 활용하여 음성-제스처 통합 생성 모델의 성능을 향상시킬 수 있다.
Abstract
이 논문은 음성과 제스처를 동시에 생성하는 통합 모델의 성능 향상을 위해 합성 데이터를 활용하는 방법을 제안한다.
주요 내용은 다음과 같다:
텍스트 생성, 음성 합성, 제스처 생성 등의 단일 모달리티 모델을 활용하여 대규모의 합성 멀티모달 데이터셋을 구축한다.
기존 최신 모델인 Match-TTSG에 확률적 지속 시간 모델, 운율 예측기 등의 기능을 추가하여 MAGI 모델을 제안한다.
실험 결과, MAGI 모델에 합성 데이터로 사전 학습을 수행하면 음성과 제스처의 품질이 모두 향상되었다. 특히 제스처 생성 성능이 크게 개선되었다.
제안된 MAGI 모델은 음성과 제스처의 운율 특성을 개별적으로 제어할 수 있는 기능을 제공한다.
종합적으로, 이 연구는 데이터 부족 문제를 해결하고 통합 생성 모델의 성능을 향상시키는 효과적인 방법을 제시한다.
Stats
합성 데이터셋의 총 길이는 37.6시간이다.
음성 합성 모델의 Word Error Rate(WER)이 MAGI-T에서 13.28%에서 MAGI-FT에서 9.29%로 개선되었다.
MAT-T에서 12.26%에서 MAT-FT에서 8.35%로 개선되었다.
Quotes
"Although humans engaged in face-to-face conversation simultaneously communicate both verbally and non-verbally, methods for joint and unified synthesis of speech audio and co-speech 3D gesture motion from text are a new and emerging field."
"The critical difference is that whereas those strong models for synthesising single modalities benefit from training on vast amounts of data (cf. [28]), existing parallel datasets of speech audio, text transcriptions, and human motion are radically smaller."