Tokenbasierte TTS-Modelle verbessern die Sprachsynthese durch hierarchische akustische Modellierung und Datenvergrößerung.