Die Autoren präsentieren ein leichtgewichtiges Text-zu-Sprache-Modell namens EM-TTS, das vollständig auf CNN-Modulen basiert. Es besteht aus zwei Stufen: Text2Spectrum und SSRN. Text2Spectrum codiert Phoneme in ein grobes Mel-Spektrogramm, während SSRN das vollständige Spektrum aus dem groben Mel-Spektrogramm synthetisiert.
Um das Problem der geringen Ressourcen für die mongolische Sprache anzugehen, führen die Autoren verschiedene Datenerweiterungstechniken wie Rauschunterdrückung, Zeitverzerrung, Frequenzverdeckung und Zeitverdeckung ein.
Die Experimente zeigen, dass das vorgeschlagene System die Trainingszeit und Modellparameter deutlich reduzieren kann, während es eine akzeptable Natürlichkeit und Verständlichkeit der synthetisierten Sprache beibehält. Obwohl die Audioqualität nicht perfekt ist, benötigt das Modell deutlich weniger Trainingszeit und Rechenressourcen als andere Lösungen.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Ziqi Liang,H... kl. arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08164.pdfDybere Forespørgsler