In dieser Studie werden verschiedene Datenaugmentierungstechniken für Spracherkennungsaufgaben untersucht und verglichen. Dafür werden die Modelle HuBERT und wav2vec auf den Aufgaben der Phonem- und Spracherkennung getestet.
Die Ergebnisse zeigen, dass die SpecAugment-Technik die Leistung der Modelle auf dem Originaldatensatz leicht verbessert. Modelle, die mit Gaussian Noise und Speed Perturbation trainiert wurden, sind dagegen robuster gegenüber den entsprechenden Störungen im Testdatensatz.
HuBERT-Gaussian-Noise reduziert die Phonemfehlerrate (PER) um mehr als 20%, während HuBERT-Speed-Perturbation die Wortfehlerrate (WER) um mehr als 28% senkt. Ähnliche Verbesserungen zeigen sich auch bei wav2vec.
Die Studie demonstriert, dass Datenaugmentierung nicht nur die Menge der Trainingsdaten erhöht, sondern auch die Robustheit der Modelle gegenüber realen Daten mit Rauschen oder Geschwindigkeitsänderungen verbessert.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Mina Huh,Ruc... kl. arxiv.org 04-01-2024
https://arxiv.org/pdf/2303.00510.pdfDybere Forespørgsler