Dieser Artikel präsentiert Conformer-1, ein End-to-End-Spracherkennungsmodell, das auf einem umfangreichen Datensatz von 570.000 Stunden Sprachdaten trainiert wurde, von denen 91% aus öffentlich zugänglichen Quellen stammen.
Um dies zu erreichen, wurde nach dem Generieren von Pseudo-Etiketten für die ungelabelten öffentlichen Daten mithilfe eines starken Conformer RNN-T-Basismodells ein Noisy Student Training durchgeführt. Das Hinzufügen dieser pseudo-etikettierten Daten führt zu bemerkenswerten Verbesserungen der relativen Wortfehlerrate um 11,5% für das asynchrone und 24,3% für das Echtzeit-Modell. Darüber hinaus ist das Modell aufgrund der Hinzufügung dieser Daten robuster gegenüber Hintergrundgeräuschen.
Die Ergebnisse zeigen, dass der Einbezug von pseudo-etikettierten, öffentlich verfügbaren Daten eine sehr effektive Strategie zur Verbesserung der Genauigkeit und Geräuschrobustheit der Spracherkennung ist.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Kevin Zhang,... في arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07341.pdfاستفسارات أعمق