이 연구는 인도의 다양한 언어에 대한 고품질 TTS 시스템을 개발하는 것을 목표로 한다. 특히 대부분의 인도 언어가 자원이 부족한 상황에서 효과적인 TTS 시스템을 구축하는 것이 핵심 과제이다.
연구에서는 신호 처리 기반의 하이브리드 정렬 기법을 활용하여 훈련 데이터의 정확한 음소 경계를 추출하고, 이를 FastSpeech2 모델 학습에 활용하였다. 이를 통해 기존의 기계 학습 기반 정렬 기법에 비해 우수한 성능의 TTS 시스템을 개발할 수 있었다.
실험 결과, 제안 시스템은 기존 최신 TTS 시스템에 비해 평균 62.63%의 선호도를 보였다. 특히 자원이 부족한 상황에서도 제안 시스템이 우수한 성능을 보였다. 이는 신호 처리 기반 정렬 기법이 음소 경계 추출의 정확도를 높여 효과적인 지속 시간 모델링을 가능하게 했기 때문이다.
향후 연구에서는 다른 프로소디 특징인 강세와 피치 예측에도 신호 처리 기법을 적용하는 등 확장 연구가 필요할 것으로 보인다. 또한 다른 직접 텍스트-음성 변환 모델에도 이 접근법을 적용할 수 있을 것으로 기대된다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問