핵심 개념
Ein leichtgewichtiges Text-zu-Sprache-System, das auf tiefen konvolutionalen neuronalen Netzen basiert und die Trainingszeit und Modellparameter deutlich reduziert, ohne die Qualität und Natürlichkeit der synthetisierten Sprache stark zu beeinträchtigen.
초록
Die Autoren präsentieren ein leichtgewichtiges Text-zu-Sprache-Modell namens EM-TTS, das vollständig auf CNN-Modulen basiert. Es besteht aus zwei Stufen: Text2Spectrum und SSRN. Text2Spectrum codiert Phoneme in ein grobes Mel-Spektrogramm, während SSRN das vollständige Spektrum aus dem groben Mel-Spektrogramm synthetisiert.
Um das Problem der geringen Ressourcen für die mongolische Sprache anzugehen, führen die Autoren verschiedene Datenerweiterungstechniken wie Rauschunterdrückung, Zeitverzerrung, Frequenzverdeckung und Zeitverdeckung ein.
Die Experimente zeigen, dass das vorgeschlagene System die Trainingszeit und Modellparameter deutlich reduzieren kann, während es eine akzeptable Natürlichkeit und Verständlichkeit der synthetisierten Sprache beibehält. Obwohl die Audioqualität nicht perfekt ist, benötigt das Modell deutlich weniger Trainingszeit und Rechenressourcen als andere Lösungen.
통계
Das Modell benötigt nur etwa 15 Stunden für das Training von Text2Spectrum und 30 Stunden für SSRN.
Die Modellparameter des EM-TTS-Modells sind mit 156,5 Millionen deutlich geringer als die von Tacotron2 (376,2 Millionen) und FastSpeech2 (387,6 Millionen).
Die Sprachverständlichkeit (WER) des EM-TTS-Modells ist mit 22,94% besser als Tacotron2 (24,87%) und Choi et al. (26,19%).
Der Pearson-Korrelationskoeffizient (PCC) zwischen der Grundfrequenz des Ziel- und des synthetisierten Sprachsignals beträgt 0,743 für EM-TTS, was besser ist als Tacotron2 (0,691) und Choi et al. (0,665).
인용구
"Unser EM-TTS-Lösungsansatz belegt Platz 12 unter allen teilnehmenden Teams in Bezug auf die N-MOS- und I-MOS-Metriken."
"Unsere Methode verwendet deutlich weniger Trainingszeit und reduziert eine große Anzahl von Modellparametern, was keine hohen Rechenressourcen erfordert und diese wirtschaftlichen Kosten des Trainings lindert."