이 프로젝트는 TTS(Text-to-Speech) 음성의 운율 매개변수를 조정하여 제어된 음성 생성을 달성하는 것을 목표로 한다. 고급 음성 처리 기술을 활용하여 TTS 음성과 사람의 음성을 비교하여 피치, 지속시간, 에너지 차이를 파악하고, PyWorld와 Librosa를 사용하여 핵심 특징을 추출한다. 이를 바탕으로 사람의 음성 특성에 맞게 조정하고 합성 과정을 거쳐 자연스러운 운율을 가진 TTS 음성을 생성한다. 이를 통해 TTS 시스템의 자연스러움과 표현력을 향상시키는 것이 이 프로젝트의 목표이다.
주요 단계는 다음과 같다:
이 프로젝트의 결과는 피치, 지속시간, 에너지 측면에서 TTS 음성이 사람의 음성과 더 유사해졌음을 보여준다. 청취 테스트에서도 조정된 TTS 음성의 자연스러움이 크게 향상된 것으로 나타났다. 이를 통해 TTS 기술의 발전에 기여할 수 있을 것으로 기대된다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Podakanti Sa... kl. arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12176.pdfDybere Forespørgsler