Core Concepts
Ein mehrkanaliges Modell zur gemeinsamen Vorhersage des mittleren Meinungsscores (MOS) und raumakustischer Parameter (STI, T60, DRR, C50) für fünf Kanäle parallel zeigt Verbesserungen bei der Vorhersage von DRR, C50 und STI gegenüber einem Einzelkanalmodell bei ähnlicher Rechenleistung.
Abstract
Die Studie präsentiert ein mehrkanaliges Modell zur gemeinsamen Vorhersage des mittleren Meinungsscores (MOS) und raumakustischer Parameter wie Nachhallzeit (T60), Direktschall-zu-Nachhall-Verhältnis (DRR), Klarheitsmaße (C50) und Sprachübertragungsindex (STI) für fünf Audiokanäle parallel.
Aufgrund fehlender Trainingsdaten mit Mehrkanal-Audios und Referenzwerten wurde ein Simulationspipeline entwickelt, um solche Daten zu generieren. Dabei wurden die raumakustischen Referenzwerte aus den simulierten Impulsantworten extrahiert, während die MOS-Werte mithilfe eines vortrainierten Modells geschätzt wurden.
Die Experimente zeigen, dass das mehrkanalige Modell die Vorhersage von DRR, C50 und STI im Vergleich zum Einzelkanalmodell verbessert, bei etwa 5-fach geringerem Rechenaufwand pro Kanal. Die Leistung bei der MOS-Vorhersage ist leicht schlechter als beim Einzelkanalmodell.
Zusätzlich wurde die Generalisierungsfähigkeit des mehrkanaligen Modells auf reale Daten untersucht. Dabei zeigte es eine ähnliche Leistung wie das ursprüngliche Einzelkanalmodell, das auf manuell annotierten Daten trainiert wurde, für Datensätze mit ähnlichen Verzerrungen. Für Datensätze mit anderen Verzerrungen war die Leistung schlechter, was auf einen Verteilungsunterschied zwischen Trainings- und Testdaten hindeutet.
Insgesamt demonstriert die Studie den Nutzen eines mehrkanaligen Ansatzes für die gemeinsame Vorhersage von Sprachqualität und Raumakustik, der Vorteile bei der Interpretierbarkeit und Leistung bietet.
Stats
Die mittlere Nachhallzeit T60 der simulierten Räume beträgt 0,41 Sekunden mit einer Standardabweichung von 0,18 Sekunden.
Quotes
Keine relevanten Zitate identifiziert.