Dieser Artikel präsentiert Conformer-1, ein End-to-End-Spracherkennungsmodell, das auf einem umfangreichen Datensatz von 570.000 Stunden Sprachdaten trainiert wurde, von denen 91% aus öffentlich zugänglichen Quellen stammen.
Um dies zu erreichen, wurde nach dem Generieren von Pseudo-Etiketten für die ungelabelten öffentlichen Daten mithilfe eines starken Conformer RNN-T-Basismodells ein Noisy Student Training durchgeführt. Das Hinzufügen dieser pseudo-etikettierten Daten führt zu bemerkenswerten Verbesserungen der relativen Wortfehlerrate um 11,5% für das asynchrone und 24,3% für das Echtzeit-Modell. Darüber hinaus ist das Modell aufgrund der Hinzufügung dieser Daten robuster gegenüber Hintergrundgeräuschen.
Die Ergebnisse zeigen, dass der Einbezug von pseudo-etikettierten, öffentlich verfügbaren Daten eine sehr effektive Strategie zur Verbesserung der Genauigkeit und Geräuschrobustheit der Spracherkennung ist.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Kevin Zhang,... om arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07341.pdfDiepere vragen