In diesem technischen Bericht beschreibt die X-LANCE-Gruppe ihre Systeme für die Teilnahme am Interspeech 2024 Discrete Speech Unit Challenge.
Für die Sprachsynthese-Aufgabe verwendeten sie das FunCodec-Modell als akustische Tokenisierung und ein modifiziertes VQTTS-System als Sprachsynthese-Pipeline. Dieses System erreichte den ersten Platz in der Bewertung, sowohl bei Verwendung des gesamten Trainingsdatensatzes als auch nur mit 1 Stunde Trainingsdaten, bei gleichzeitig sehr niedrigem Bitrate.
Für die Gesangsstimmsynthese-Aufgabe nutzten sie den Descript Audio Codec (DAC) als diskrete Tokenisierung und ein angepasstes VALL-E-System als Gesangsstimmsynthese-Pipeline.
Für die Spracherkennung verwendeten sie WavLM-Tokenisierung mit K-Means-Clustering und ein Zipformer-basiertes neuronales Transducer-Modell, das eine relative Verbesserung der Zeichenfehlerrate von bis zu 13% gegenüber der Baseline erzielte.
Die Autoren diskutieren die Vor- und Nachteile der verschiedenen diskreten Tokenisierungsansätze für die jeweiligen Aufgaben und zeigen, wie diese in leistungsfähige Sprachverarbeitungssysteme integriert werden können.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések