이 논문에서는 다국어 음성 합성 시스템에 쉽게 통합할 수 있는 제로샷 음성 전달(Voice Transfer, VT) 모듈을 소개한다. 제안된 VT 모듈은 참조 음성을 처리하는 화자 인코더, 병목층, 그리고 기존 음성 합성 레이어에 연결된 잔차 어댑터로 구성된다. 다양한 병목층 구성을 비교하고 언어 간 평균 의견 점수(MOS)와 화자 유사도를 보고한다. 단일 영어 참조 음성을 사용하여 9개 대상 언어에서 평균 73%의 음성 전달 유사도 점수를 달성했다. 또한 비전형적인 음성 샘플만 있는 경우에도 높은 품질의 음성을 생성할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Fadi Biadsy,... at arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.13910.pdfDeeper Inquiries