Conceptos Básicos
본 연구는 일관성 모델 기반의 새로운 텍스트-음성 합성 아키텍처 CM-TTS를 제안하여, 적대적 훈련이나 사전 학습된 모델 의존성 없이도 고품질의 실시간 음성 합성을 달성하였다.
Resumen
본 연구는 실시간 음성 합성을 위한 새로운 텍스트-음성 합성 모델 CM-TTS를 제안한다. CM-TTS는 일관성 모델 기반으로 설계되어 적대적 훈련이나 사전 학습된 모델에 의존하지 않고도 고품질의 실시간 음성 합성을 달성한다.
주요 내용은 다음과 같다:
- 확산 모델의 장점을 활용하면서도 효율적인 단일 단계 또는 다단계 음성 합성을 가능하게 하는 새로운 아키텍처 CM-TTS를 제안
- 가중치 샘플러를 도입하여 모델 훈련 과정에서 발생할 수 있는 편향을 완화
- 다양한 객관적/주관적 평가 지표를 통해 CM-TTS의 우수한 성능을 검증
- 제안된 모델이 기존 단일 단계 음성 합성 시스템을 크게 개선했음을 보여줌
Estadísticas
음성 합성 과정에서 실시간 처리가 중요하며, 확산 모델 기반 접근법은 이를 어렵게 만든다.
적대적 훈련이나 사전 학습된 모델에 의존하는 기존 접근법은 모델 수렴 문제와 복잡성 증가의 한계가 있다.
Citas
"Diffusion Models (DMs) are advanced generative models, excelling in image generation (Ho et al., 2020; Kumar et al., 2019; Song et al., 2021; Rombach et al., 2021), molecular design (You et al., 2018; Gómez-Bombarelli et al., 2018; Thomas et al., 2023), and speech synthesis (Kim et al., 2022a,b; Popov et al., 2021)."
"Despite their exceptional performance, the efficiency of their multi-step iterative sampling is hindered by Markov chain limitations."