이 논문은 다양한 억양을 가진 사용자를 위한 포용적인 음성 합성 기술을 제안한다. 기존 텍스트-음성 변환 모델은 고품질 음성 생성에 초점을 맞추어 특정 억양에 편향되어 있었다. 이를 해결하기 위해 저자들은 다단계 VAE(Variational Autoencoder) 기반의 Tacotron2 모델에 적대적 학습을 추가하였다.
다단계 VAE 모듈은 화자 정보와 억양 정보를 분리하여 학습한다. 적대적 학습은 화자 임베딩에서 억양 정보를 제거하여 억양 변환 능력을 향상시킨다. 실험 결과, 제안 모델은 기존 모델 대비 객관적 및 주관적 평가에서 향상된 억양 변환 성능을 보였다. 다만 화자 유사도와 음질이 다소 저하되는 한계가 있었다.
저자들은 이 연구가 포용적 음성 합성 기술 발전을 위한 새로운 방향을 제시한다고 강조한다. 향후 연구에서는 더 큰 데이터셋과 화자 정체성 보존과 억양 변환 간의 균형을 개선할 필요가 있다고 제안한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jan Melechov... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2406.01018.pdfDybere Forespørgsler