본 연구에서는 음성 처리에서 중요한 과제인 음소 정렬을 다룬다. 음소 정렬은 음성 신호와 음소 또는 문자열 간의 시간 정렬을 결정하는 작업이다. 정확한 정렬은 음성의 음성학적 및 운율적 특징을 자세히 분석하고, 자막, 립싱크, 음성 편집 등의 비디오 콘텐츠를 생성하는 데 사용될 수 있다.
기존의 음소 정렬 방법으로는 GMM 기반 HMM 모델과 신경망 기반 모델이 있다. GMM-HMM 모델은 모델 표현력이 제한적이며, 신경망 기반 모델은 정확한 경계 예측이 어렵다는 문제가 있다. 또한 TTS 연구에서 개발된 정렬 모델은 자연스러운 합성 음성을 생성할 수 있지만, 정확한 음소 경계를 예측하지 못한다는 한계가 있다.
이에 본 연구에서는 VAE 기반 정렬 모델을 제안한다. 구체적으로 다음과 같은 기술을 도입한다:
실험 결과, 제안 모델이 기존 방법들에 비해 더 정확한 음소 경계를 생성하는 것을 확인했다. 또한 각 구성 요소의 효과를 검증하는 실험도 수행했다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Tomoki Koriy... a las arxiv.org 09-26-2024
https://arxiv.org/pdf/2407.02749.pdfConsultas más profundas