Durch die Verwendung mehrstufiger akustischer Prompts, die sowohl den Klangcharakter als auch den persönlichen Sprachstil des Zielsprechers erfassen, kann die Qualität und Ähnlichkeit der generierten Sprache in der sprachmodellbasierten Zero-Shot-Sprachsynthese deutlich verbessert werden.
RALL-E, eine robuste Sprachmodellierungsmethode, verbessert die Leistung von LLM-basierten Text-to-Speech-Systemen durch die Verwendung von Chain-of-Thought-Prompting für Prosodie-Merkmale und eine dauer-gesteuerte Maskierung.
Durch die Modellierung von sowohl syntaktischen als auch akustischen Merkmalen kann die Pausenbildung in der koreanischen Sprachsynthese deutlich verbessert werden, was zu einer natürlicheren Sprachausgabe führt.
Durch die Anwendung des Slicing Adversarial Network (SAN)-Trainingsrahmens können die Leistung von GAN-basierten Vocodern, einschließlich BigVGAN, mit geringen Modifikationen verbessert werden.
Durch die Erstellung eines Korpus mit vielfältigen Stimmcharakteristika und die Entwicklung eines Modells zur Abbildung von Sprachbeschreibungen auf Sprachsignale können Sprachsynthesesysteme eine nuanciertere Kontrolle über Stimmcharakteristika ermöglichen.
Mega-TTS 2 ist ein generisches Prompting-Mechanismus für Zero-Shot-Sprachsynthese, der die Herausforderungen bisheriger Ansätze adressiert. Das Modell nutzt einen leistungsfähigen akustischen Autoencoder, um Prosodie und Timbre getrennt zu erfassen, sowie einen Multi-Referenz-Timbre-Encoder und ein Prosodie-Latent-Language-Modell, um nützliche Informationen aus Mehrfach-Satz-Prompts zu extrahieren. Darüber hinaus ermöglicht eine Prosodie-Interpolationstechnik die kontrollierte Übertragung verschiedener Sprechstile auf den gewünschten Timbre.
Ein leichtgewichtiges Text-zu-Sprache-System, das auf tiefen konvolutionalen neuronalen Netzen basiert und die Trainingszeit und Modellparameter deutlich reduziert, ohne die Qualität und Natürlichkeit der synthetisierten Sprache stark zu beeinträchtigen.
Tokenbasierte TTS-Modelle verbessern die Sprachsynthese durch hierarchische akustische Modellierung und Datenvergrößerung.
Ein neues Framework ermöglicht die Skalierung eines mehrsprachigen TTS-Modells auf über 100 Sprachen ohne transkribierte Daten.