Dieser Artikel präsentiert Conformer-1, ein End-to-End-Spracherkennungsmodell, das auf einem umfangreichen Datensatz von 570.000 Stunden Sprachdaten trainiert wurde, von denen 91% aus öffentlich zugänglichen Quellen stammen.
Um dies zu erreichen, wurde nach dem Generieren von Pseudo-Etiketten für die ungelabelten öffentlichen Daten mithilfe eines starken Conformer RNN-T-Basismodells ein Noisy Student Training durchgeführt. Das Hinzufügen dieser pseudo-etikettierten Daten führt zu bemerkenswerten Verbesserungen der relativen Wortfehlerrate um 11,5% für das asynchrone und 24,3% für das Echtzeit-Modell. Darüber hinaus ist das Modell aufgrund der Hinzufügung dieser Daten robuster gegenüber Hintergrundgeräuschen.
Die Ergebnisse zeigen, dass der Einbezug von pseudo-etikettierten, öffentlich verfügbaren Daten eine sehr effektive Strategie zur Verbesserung der Genauigkeit und Geräuschrobustheit der Spracherkennung ist.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kevin Zhang,... lúc arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07341.pdfYêu cầu sâu hơn