Kernkonzepte
Ein neues Framework ermöglicht die Skalierung eines mehrsprachigen TTS-Modells auf über 100 Sprachen ohne transkribierte Daten.
Statistiken
Ohne jegliche transkribierte Sprache in einer neuen Sprache kann das TTS-Modell verständliche Sprache in über 30 unbekannten Sprachen generieren.
Mit nur 15 Minuten transkribierten Daten kann die Intelligenzunterschied zum Ground-Truth auf 1% oder weniger reduziert werden.
Zitate
"Das vorgeschlagene Framework kombiniert Vorverarbeitung des Sprach-Text-Encoders mit unüberwachtem Training, um die Sprachabdeckung auf über 100 Sprachen zu erweitern."
"Unser Hauptbeitrag ist ein neuartiges TTS-Framework, das sich in null und minimal überwachten Einstellungen als wirksam erwiesen hat."