Core Concepts
Durch den Einsatz von physikalisch basierten Audiosimulationen und Maschinellem Lernen können Schallquellen in virtuellen Umgebungen präzise lokalisiert werden, auch wenn nur begrenzte Echtzeitdaten zur Verfügung stehen.
Abstract
In dieser Studie wird ein Workflow entwickelt, um Schallquellen in signalarmen Umgebungen, insbesondere für die Analyse von Aufnahmen nach Ereignissen, zu lokalisieren. Dazu werden hochrealistische Raumimpulsantworten in einer virtuellen 3D-Umgebung generiert und Maschinelle-Lernmodelle darauf trainiert.
Der Prozess umfasst folgende Schritte:
Verwendung des SoundSpace2.0-Frameworks und der Habitat-Sim-Simulationsumgebung, um die Ausbreitung von Schall in einem virtuellen 3D-Raum zu simulieren
Generierung eines Datensatzes von 640 Spektrogrammen von Audiosignalen mit Raumimpulsantworten für 10 verschiedene Räume
Training von Convolutional Neural Network (CNN) und Audio Spectrogram Transformer (AST) Modellen zur Klassifikation der Raumherkunft der Schallquellen
Evaluierung der Modelle anhand von Präzision, Recall und F1-Score
Die Ergebnisse zeigen, dass das AST-Modell mit einem F1-Score von 0,786 ± 0,014 deutlich besser abschneidet als das CNN-Modell. Dies demonstriert, dass Audiosimulationen eine vielversprechende Methode sind, um Schallquellen in virtuellen Umgebungen zu lokalisieren, auch wenn nur begrenzte Echtzeitdaten zur Verfügung stehen.
Mögliche Erweiterungen der Arbeit umfassen die Anpassung an dynamische Szenarien mit bewegten Schallquellen, die Trennung von Schallmischungen sowie die Erstellung von 3D-Modellen basierend auf Bauplänen realer Gebäude, um eine Übertragung der Simulationen in die Realität zu ermöglichen.
Stats
Die Audiosimulationen erreichten eine Genauigkeit von 78,6% bei der Klassifikation der Raumherkunft der Schallquellen.
Der mittlere quadratische Fehler bei der Vorhersage der exakten Koordinaten der Schallquellen lag bei 3,4 Metern.
Quotes
"Durch den Einsatz von physikalisch basierten Audiosimulationen und Maschinellem Lernen können Schallquellen in virtuellen Umgebungen präzise lokalisiert werden, auch wenn nur begrenzte Echtzeitdaten zur Verfügung stehen."
"Das AST-Modell schnitt mit einem F1-Score von 0,786 ± 0,014 deutlich besser ab als das CNN-Modell, was die Leistungsfähigkeit von Audiosimulationen für die Lokalisierung von Schallquellen in virtuellen Umgebungen demonstriert."