核心概念
TTS 음성의 운율 특성(피치, 지속시간, 에너지)을 사람의 음성과 더 유사하게 조정하여 자연스럽고 표현력 있는 합성 음성을 생성하는 것이 이 프로젝트의 핵심 목표이다.
摘要
이 프로젝트는 TTS(Text-to-Speech) 음성의 운율 매개변수를 조정하여 제어된 음성 생성을 달성하는 것을 목표로 한다. 고급 음성 처리 기술을 활용하여 TTS 음성과 사람의 음성을 비교하여 피치, 지속시간, 에너지 차이를 파악하고, PyWorld와 Librosa를 사용하여 핵심 특징을 추출한다. 이를 바탕으로 사람의 음성 특성에 맞게 조정하고 합성 과정을 거쳐 자연스러운 운율을 가진 TTS 음성을 생성한다. 이를 통해 TTS 시스템의 자연스러움과 표현력을 향상시키는 것이 이 프로젝트의 목표이다.
주요 단계는 다음과 같다:
- 특징 추출: 사람의 음성과 TTS 음성에서 피치, 에너지, 스펙트럼 포락선 등의 운율 특징을 추출한다.
- 특징 비교: 사람의 음성과 TTS 음성의 운율 특징을 비교하여 차이점을 파악한다.
- 특징 조정: TTS 음성의 피치, 지속시간, 에너지를 조정하여 사람의 음성과 더 유사하게 만든다.
- 모델 학습: 사람의 음성과 조정된 TTS 음성의 유사도를 최대화하도록 모델을 학습시킨다.
- 적용: 학습된 모델을 이용하여 새로운 TTS 음성을 처리하고 운율을 개선한다.
이 프로젝트의 결과는 피치, 지속시간, 에너지 측면에서 TTS 음성이 사람의 음성과 더 유사해졌음을 보여준다. 청취 테스트에서도 조정된 TTS 음성의 자연스러움이 크게 향상된 것으로 나타났다. 이를 통해 TTS 기술의 발전에 기여할 수 있을 것으로 기대된다.
统计
사람의 음성과 TTS 음성의 평균 피치 차이가 30Hz에서 5Hz로 감소했다.
지속시간 비율이 0.85에서 0.98로 개선되어 사람의 음성과 더 유사해졌다.
에너지 비율이 0.8에서 0.95로 향상되어 에너지 수준이 더 일치하게 되었다.
引用
"이 프로젝트는 TTS 음성의 자연스러움과 표현력을 향상시키기 위해 운율 매개변수 조정에 초점을 맞추고 있다."
"TTS 음성의 피치, 지속시간, 에너지 특성을 사람의 음성과 더 유사하게 조정하는 것이 핵심 목표이다."