Kernkonzepte
Wir stellen einen umfassenden Benchmark namens "Speech Robust Bench" vor, der es ermöglicht, die Robustheit von Spracherkennungsmodellen gegenüber verschiedensten Verzerrungen und Angriffen systematisch zu evaluieren und zu vergleichen.
Zusammenfassung
Der Artikel präsentiert einen neuen Benchmark namens "Speech Robust Bench" (SRB), der entwickelt wurde, um die Robustheit von Spracherkennungsmodellen (ASR-Modelle) umfassend zu evaluieren. SRB besteht aus zwei Hauptkomponenten:
- Eine Bank von 69 Eingabeperturbationen, die verschiedene Arten von Verzerrungen und Angriffen simulieren, denen ASR-Modelle in der Praxis begegnen können.
- Metriken zur Messung der Vorhersagegenauigkeit (Normalized Word Error Rate) und -stabilität (Word Error Rate Variance) der Modelle unter diesen Perturbationen.
Die Autoren verwenden SRB, um die Robustheit mehrerer populärer ASR-Modelle zu untersuchen. Sie machen folgende Beobachtungen:
- Das Whisper-Modell ist im Durchschnitt am robustesten, wird aber von anderen, kleineren Modellen bei bestimmten Perturbationen übertroffen.
- Größere Modelle tendieren im Allgemeinen zu mehr Robustheit als kleinere Modelle, auch wenn letztere auf deutlich mehr Daten trainiert wurden.
- Es gibt erhebliche Unterschiede in der Robustheit der Modelle für verschiedene Sprechergruppen (Englisch vs. Spanisch, Männer vs. Frauen).
Der Benchmark soll zukünftige Forschung zu robusten ASR-Modellen erleichtern, indem er standardisierte und vergleichbare Robustheitsevaluationen ermöglicht.
Statistiken
Die Whisper-Modelle (wsp-lg, wsp-tn) wurden auf insgesamt 680.000 Stunden Trainingsdaten trainiert.
Das wav2vec-2.0-Basismodell (w2v2-bs) wurde auf 960 Stunden Daten trainiert.
Das HuBERT-Modell (hubt-lg) wurde auf 60.000 Stunden Daten trainiert.
Zitate
"Wir stellen SRB, einen Robustheitsbenchmark für ASR-Modelle, vor, der zu direkt vergleichbaren Robustheitsevaluationen führen und den Fortschritt erleichtern kann."
"Unsere Analysen zeigen, dass größere Modelle im Allgemeinen robuster sind als kleinere Modelle, auch wenn letztere auf deutlich mehr Daten trainiert wurden."
"Wir stellen fest, dass es erhebliche Unterschiede in der Robustheit der Modelle für verschiedene Sprechergruppen gibt, was Bereiche aufzeigt, in denen zukünftige Arbeiten Verbesserungen liefern könnten."