Core Concepts
Ein neues Framework ermöglicht die Skalierung eines mehrsprachigen TTS-Modells auf über 100 Sprachen ohne transkribierte Daten.
Abstract
Abstract:
Schwierigkeiten bei der Sammlung hochwertiger Audioaufnahmen begrenzen die Sprachabdeckung von Text-to-Speech-Systemen.
Das vorgeschlagene Framework kombiniert Vorverarbeitung des Sprach-Text-Encoders mit unüberwachtem Training, um die Sprachabdeckung auf über 100 Sprachen zu erweitern.
Das TTS-Modell kann verständliche Sprache in über 30 unbekannten Sprachen generieren, ohne transkribierte Daten zu benötigen.
Einführung:
TTS-Systeme erfordern hochwertige transkribierte Audioaufnahmen für das Training, was die Entwicklung für Sprachen mit begrenzten Ressourcen einschränkt.
Frühere Studien haben alternative Datenquellen untersucht, um den Bedarf an gepaarten Daten zu reduzieren.
Vorgeschlagenes Framework:
Verwendung eines gemeinsamen Sprach-Text-Modells für die TTS-Spracherweiterung.
Vorverarbeitung eines selbstüberwachten mehrsprachigen Sprachgrundlagenmodells zur Definition eines gemeinsamen Sprach-Text-Merkmalsraums.
Experimentelle Einstellung:
Datensätze umfassen gepaarte Daten, untranskribierte Sprachdaten und ungesprochene Textdaten.
Das Training erfolgt in drei Stufen: Vorverarbeitung, gefrorenes Sprach-Encoder-Training und gemeinsames Training.
Ergebnisse:
Das vorgeschlagene Modell zeigt eine deutliche Verbesserung der Verständlichkeit und Natürlichkeit der generierten Sprache.
Die Anwendung von 15 Minuten transkribierten Daten verbessert die Intelligenz signifikant.
Stats
Ohne jegliche transkribierte Sprache in einer neuen Sprache kann das TTS-Modell verständliche Sprache in über 30 unbekannten Sprachen generieren.
Mit nur 15 Minuten transkribierten Daten kann die Intelligenzunterschied zum Ground-Truth auf 1% oder weniger reduziert werden.
Quotes
"Das vorgeschlagene Framework kombiniert Vorverarbeitung des Sprach-Text-Encoders mit unüberwachtem Training, um die Sprachabdeckung auf über 100 Sprachen zu erweitern."
"Unser Hauptbeitrag ist ein neuartiges TTS-Framework, das sich in null und minimal überwachten Einstellungen als wirksam erwiesen hat."