Die Studie untersucht zwei Methoden zur gemeinsamen Durchführung von Schallerkennungs-, Lokalisierungs- und Distanzschätzung (3D SELD):
Für beide Ansätze werden verschiedene Verlustfunktionen untersucht, um die am besten geeignete für die gemeinsame Aufgabe zu ermitteln. Die Experimente werden sowohl für Ambisonics- als auch für binaurale Aufnahmen durchgeführt, um das Potenzial der Aufgabe in einem begrenzteren Audioformat zu untersuchen.
Die Ergebnisse zeigen, dass es möglich ist, 3D SELD durchzuführen, ohne dass die Leistung bei der Schallerkennung und DOA-Schätzung beeinträchtigt wird. Der Multi-ACCDDOA-Ansatz mit der MSE-Verlustfunktion erzielt die besten Ergebnisse. Es wird jedoch eine Diskrepanz zwischen SELD und Distanzschätzung festgestellt, bei der Letztere bei Verwendung der MAE-Verlustfunktion besser abschneidet.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies