Die moderne neuronale Texttospeech (TTS)-Architektur besteht aus drei Hauptkomponenten: einem Textencoder, einem Merkmalsprädiktor und einem akustischen Modell. Bestehende Ansätze wie autoregressive und nicht-autoregressive Modelle haben Vor- und Nachteile in Bezug auf Effizienz und Qualität der Sprachsynthese.
Diffusionsmodelle (DMs) sind leistungsfähige generative Modelle, die in verschiedenen Bereichen wie Bildgenerierung und Sprachsynthese erfolgreich eingesetzt werden. Allerdings leidet ihre Effizienz unter der langsamen Abtastung während der Inferenz.
Um diese Herausforderungen zu überwinden, präsentiert diese Arbeit CM-TTS, eine neuartige Architektur, die auf Konsistenzmodellen (CMs) basiert. CM-TTS erreicht hochwertige Sprachsynthese in weniger Schritten ohne adversarisches Training oder Abhängigkeiten von vortrainierten Modellen. Darüber hinaus führen gewichtete Stichprobenentnahmen zu einer effizienteren Modellausbildung.
Die Experimente zeigen, dass CM-TTS die bestehenden Einzelschrittsprachsynthesesysteme in Qualität und Effizienz übertrifft und einen bedeutenden Fortschritt in der TTS-Architektur darstellt.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Xiang Li,Fan... klo arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00569.pdfSyvällisempiä Kysymyksiä