Die Autoren präsentieren ein leichtgewichtiges Text-zu-Sprache-Modell namens EM-TTS, das vollständig auf CNN-Modulen basiert. Es besteht aus zwei Stufen: Text2Spectrum und SSRN. Text2Spectrum codiert Phoneme in ein grobes Mel-Spektrogramm, während SSRN das vollständige Spektrum aus dem groben Mel-Spektrogramm synthetisiert.
Um das Problem der geringen Ressourcen für die mongolische Sprache anzugehen, führen die Autoren verschiedene Datenerweiterungstechniken wie Rauschunterdrückung, Zeitverzerrung, Frequenzverdeckung und Zeitverdeckung ein.
Die Experimente zeigen, dass das vorgeschlagene System die Trainingszeit und Modellparameter deutlich reduzieren kann, während es eine akzeptable Natürlichkeit und Verständlichkeit der synthetisierten Sprache beibehält. Obwohl die Audioqualität nicht perfekt ist, benötigt das Modell deutlich weniger Trainingszeit und Rechenressourcen als andere Lösungen.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Ziqi Liang,H... às arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08164.pdfPerguntas Mais Profundas