In diesem technischen Bericht beschreibt die X-LANCE-Gruppe ihre Systeme für die Teilnahme am Interspeech 2024 Discrete Speech Unit Challenge.
Für die Sprachsynthese-Aufgabe verwendeten sie das FunCodec-Modell als akustische Tokenisierung und ein modifiziertes VQTTS-System als Sprachsynthese-Pipeline. Dieses System erreichte den ersten Platz in der Bewertung, sowohl bei Verwendung des gesamten Trainingsdatensatzes als auch nur mit 1 Stunde Trainingsdaten, bei gleichzeitig sehr niedrigem Bitrate.
Für die Gesangsstimmsynthese-Aufgabe nutzten sie den Descript Audio Codec (DAC) als diskrete Tokenisierung und ein angepasstes VALL-E-System als Gesangsstimmsynthese-Pipeline.
Für die Spracherkennung verwendeten sie WavLM-Tokenisierung mit K-Means-Clustering und ein Zipformer-basiertes neuronales Transducer-Modell, das eine relative Verbesserung der Zeichenfehlerrate von bis zu 13% gegenüber der Baseline erzielte.
Die Autoren diskutieren die Vor- und Nachteile der verschiedenen diskreten Tokenisierungsansätze für die jeweiligen Aufgaben und zeigen, wie diese in leistungsfähige Sprachverarbeitungssysteme integriert werden können.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yiwei Guo,Ch... at arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06079.pdfDeeper Inquiries