核心概念
본 연구는 조건부 변분 자동 인코더(CVAE)를 활용하여 화자의 정체성을 유지하면서도 다양한 억양으로 음성을 합성할 수 있는 효율적인 프레임워크를 제안한다.
摘要
이 논문은 화자의 정체성을 유지하면서도 다양한 억양으로 음성을 합성할 수 있는 효율적인 프레임워크를 제안한다. 이를 위해 Tacotron2 모델에 조건부 변분 자동 인코더(CVAE) 인코더를 결합하였다. CVAE 인코더는 화자 정보와 억양 정보를 분리하여 학습할 수 있으며, 이를 통해 화자의 정체성을 유지하면서도 다양한 억양으로 음성을 합성할 수 있다.
실험 결과, 제안 모델은 기존 모델 대비 객관적 및 주관적 평가에서 우수한 성능을 보였다. 특히 억양 변환 시 자연스러운 음질을 유지하는 것으로 나타났다. 또한 화자 정체성과 억양 사이의 균형을 잡는 것이 중요한 과제임을 확인하였다. 향후 연구에서는 화자 정체성과 억양을 보다 효과적으로 분리할 수 있는 메커니즘을 개발할 계획이다.
統計資料
음성 합성 시 메ل 스펙트로그램 재구성 능력을 평가하는 메ل 켑스트럼 왜곡(MCD) 지표에서 제안 모델이 기존 모델보다 우수한 성능을 보였다.
합성 음성의 명료도를 평가하는 단어 오류율(WER) 지표에서는 기존 모델과 유사한 수준의 성능을 보였다.
引述
"제안 프레임워크는 화자의 정체성을 유지하면서도 다양한 억양으로 음성을 합성할 수 있는 효율적인 방법을 제시한다."
"실험 결과는 제안 모델이 억양 변환 시 자연스러운 음질을 유지하는 것을 보여준다."