Dieser Artikel präsentiert Conformer-1, ein End-to-End-Spracherkennungsmodell, das auf einem umfangreichen Datensatz von 570.000 Stunden Sprachdaten trainiert wurde, von denen 91% aus öffentlich zugänglichen Quellen stammen.
Um dies zu erreichen, wurde nach dem Generieren von Pseudo-Etiketten für die ungelabelten öffentlichen Daten mithilfe eines starken Conformer RNN-T-Basismodells ein Noisy Student Training durchgeführt. Das Hinzufügen dieser pseudo-etikettierten Daten führt zu bemerkenswerten Verbesserungen der relativen Wortfehlerrate um 11,5% für das asynchrone und 24,3% für das Echtzeit-Modell. Darüber hinaus ist das Modell aufgrund der Hinzufügung dieser Daten robuster gegenüber Hintergrundgeräuschen.
Die Ergebnisse zeigen, dass der Einbezug von pseudo-etikettierten, öffentlich verfügbaren Daten eine sehr effektive Strategie zur Verbesserung der Genauigkeit und Geräuschrobustheit der Spracherkennung ist.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések