Effiziente Echtzeit-Texttospeech-Synthese durch gewichtete Stichprobenentnahme und Konsistenzmodelle
CM-TTS, eine neuartige Architektur, erreicht hochwertige Sprachsynthese in weniger Schritten ohne adversarisches Training oder Abhängigkeiten von vortrainierten Modellen.