이 논문은 화자의 정체성을 유지하면서도 다양한 억양으로 음성을 합성할 수 있는 효율적인 프레임워크를 제안한다. 이를 위해 Tacotron2 모델에 조건부 변분 자동 인코더(CVAE) 인코더를 결합하였다. CVAE 인코더는 화자 정보와 억양 정보를 분리하여 학습할 수 있으며, 이를 통해 화자의 정체성을 유지하면서도 다양한 억양으로 음성을 합성할 수 있다.
실험 결과, 제안 모델은 기존 모델 대비 객관적 및 주관적 평가에서 우수한 성능을 보였다. 특히 억양 변환 시 자연스러운 음질을 유지하는 것으로 나타났다. 또한 화자 정체성과 억양 사이의 균형을 잡는 것이 중요한 과제임을 확인하였다. 향후 연구에서는 화자 정체성과 억양을 보다 효과적으로 분리할 수 있는 메커니즘을 개발할 계획이다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문