본 논문은 영어 텍스트 음성 합성을 위한 통합 프론트엔드 프레임워크를 제안한다. 일반적으로 영어 텍스트 음성 합성 프론트엔드는 텍스트 정규화, 운율 단어 및 구 식별, 그래프-음소 변환 등의 모듈로 구성된다. 그러나 기존 연구는 각 모듈을 독립적으로 개선하는 데 초점을 맞추어 왔으며, 모듈 간 상호 의존성을 고려하지 않아 전체적인 성능이 최적화되지 않았다.
따라서 본 연구는 이러한 문제를 해결하기 위해 통합 프론트엔드 프레임워크를 제안한다. 이 프레임워크는 다중 과제 모델을 사용하여 세 가지 모듈을 통합하고 상호 의존성을 활용한다.
텍스트 정규화 모듈은 규칙 기반 방법과 모델 기반 방법을 결합하여 유연성과 정확성을 높였다. 운율 단어 및 구 식별 모듈은 계층적 시퀀스 태깅 구조를 사용하여 각 운율 수준을 독립적으로 예측함으로써 성능을 향상시켰다. 그래프-음소 변환 모듈은 어휘 사전, OOV 단어 변환, 품사 및 다의어 처리 등을 통합하여 정확도를 높였다.
실험 결과, 제안된 프레임워크는 모든 모듈에서 최신 기술 수준의 성능을 달성했다. 텍스트 정규화에서 1.19%의 문장 오류율, 운율 단어 및 구 식별에서 90.83%, 57.65%, 83.36%의 F1 점수, 그래프-음소 변환에서 3.09%의 단어 오류율을 기록했다. 이는 기존 연구 대비 큰 성능 향상을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문