核心概念
단일 참조 음성 발화를 사용하여 다국어 음성 합성 시스템에 음성을 전달할 수 있는 제로샷 음성 전달 모듈을 소개한다.
摘要
이 논문에서는 다국어 음성 합성 시스템에 쉽게 통합할 수 있는 제로샷 음성 전달(Voice Transfer, VT) 모듈을 소개한다. 제안된 VT 모듈은 참조 음성을 처리하는 화자 인코더, 병목층, 그리고 기존 음성 합성 레이어에 연결된 잔차 어댑터로 구성된다. 다양한 병목층 구성을 비교하고 언어 간 평균 의견 점수(MOS)와 화자 유사도를 보고한다. 단일 영어 참조 음성을 사용하여 9개 대상 언어에서 평균 73%의 음성 전달 유사도 점수를 달성했다. 또한 비전형적인 음성 샘플만 있는 경우에도 높은 품질의 음성을 생성할 수 있음을 보여준다.
統計資料
단일 영어 참조 음성을 사용하여 9개 대상 언어에서 평균 73%의 음성 전달 유사도 점수를 달성했다.
비전형적인 음성 샘플을 사용한 경우, SharedGST와 MultiGST 병목층이 가장 우수한 성능을 보였다.
引述
"음성 특성은 개인 정체성 구축에 중요한 역할을 한다. 신체적 또는 신경학적 상태로 인한 음성 상실은 개인의 핵심 정체성에 큰 영향을 미칠 수 있다."
"제안된 VT 모듈은 단일 참조 발화를 사용하여 언어 간 음성을 전달할 수 있으며, 비전형적인 음성 샘플을 사용해도 높은 품질의 음성을 생성할 수 있다."