Die Studie untersucht zwei Methoden zur gemeinsamen Durchführung von Schallerkennungs-, Lokalisierungs- und Distanzschätzung (3D SELD):
Für beide Ansätze werden verschiedene Verlustfunktionen untersucht, um die am besten geeignete für die gemeinsame Aufgabe zu ermitteln. Die Experimente werden sowohl für Ambisonics- als auch für binaurale Aufnahmen durchgeführt, um das Potenzial der Aufgabe in einem begrenzteren Audioformat zu untersuchen.
Die Ergebnisse zeigen, dass es möglich ist, 3D SELD durchzuführen, ohne dass die Leistung bei der Schallerkennung und DOA-Schätzung beeinträchtigt wird. Der Multi-ACCDDOA-Ansatz mit der MSE-Verlustfunktion erzielt die besten Ergebnisse. Es wird jedoch eine Diskrepanz zwischen SELD und Distanzschätzung festgestellt, bei der Letztere bei Verwendung der MAE-Verlustfunktion besser abschneidet.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Daniel Aleks... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11827.pdfConsultas más profundas