Vergleich verschiedener Methoden zur Sprachdatenaugmentierung mit dem S3PRL-Toolkit
Verschiedene Datenaugmentierungstechniken wie SpecAugment, Gaussian Noise und Speed Perturbation können die Leistung von Spracherkennungsmodellen wie HuBERT und wav2vec auf Phonem- und Spracherkennung verbessern, insbesondere bei Testdaten mit Rauschen oder Geschwindigkeitsänderungen.