Die Studie stellt einen neuen modularen Extraktor namens Echo-MSA vor, der für Aufgaben der automatischen Spracherkennung (ASR) entwickelt wurde. Echo-MSA verwendet einen variablen Aufmerksamkeitsmechanismus, um Sprachmerkmale auf verschiedenen Ebenen wie Frames, Phoneme, Wörter und Diskurs zu extrahieren. Dies ermöglicht eine bessere Modellierung von Sprachsignalen mit unterschiedlicher Länge und Komplexität, was die Stabilität und Genauigkeit der Spracherkennung verbessert.
Der Ansatz integriert Echo-MSA nahtlos in vortrainierte Modelle wie data2vec durch eine parallele Aufmerksamkeitsstruktur und einen dynamischen Gating-Mechanismus. Experimente auf dem Librispeech-Datensatz zeigen, dass die Verwendung von Echo-MSA die Fehlerrate (WER) im Vergleich zu Basismodellen um bis zu 7,7% (Basismodell) und 5,7% (Großmodell) senkt.
Weitere Analysen untersuchen den Einfluss verschiedener Komponenten wie der Verlustfunktion und der Kernelgrößen auf die Leistung. Die Ergebnisse zeigen, dass Echo-MSA insbesondere in Szenarien mit geringen Ressourcen (10 Minuten bis 100 Stunden gekennzeichnete Daten) zu deutlichen Verbesserungen führt.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Sizhou Chen,... في arxiv.org 04-09-2024
https://arxiv.org/pdf/2309.07765.pdfاستفسارات أعمق