Core Concepts
Unsere audioqualitätsbasierte Multi-Strategie für die Zielrednerextraktion in der MISP 2023 Challenge verbessert die Spracherkennungssysteme.
Abstract
1. Einleitung
Ziel: Extraktion der Sprache eines spezifischen Redners aus komplexen akustischen Umgebungen.
Herausforderungen: Hintergrundgeräusche und Interferenzen durch mehrere Redner.
Methoden: Abhängigkeit von vorab aufgezeichneten Registrierungsaudios des Zielredners.
2. Ansatz
Kategorisierung von Audio in drei Qualitätsgruppen basierend auf DNSMOS OVRL-Scores.
Verwendung verschiedener Extraktionsstrategien für jede Kategorie.
3. Experimente
Verwendung des MISP2023 Challenge-Datensatzes.
Training in zwei Stufen: Simulation und gemeinsames Training mit dem ASR-System.
4. Ergebnisse
Unsere Methode erreicht einen CER von 24,2% auf dem Dev-Set und 33,2% auf dem Eval-Set.
Stats
Unsere Methode erreicht einen CER von 24,2% auf dem Dev-Set und 33,2% auf dem Eval-Set.
Quotes
"Unsere Methode erreicht eine Zeichenfehlerrate (CER) von 24,2% bzw. 33,2% auf dem Dev- und Eval-Set und belegt damit den zweiten Platz in der Challenge."