Die Studie zeigt, dass die untersuchten Deep-Learning-Modelle für die Sprachquellenlokalisation darauf ausgerichtet sind, die Mikrofonsignale zu entverrauschen und zu entprallen, um genauere statistische Korrelationen zwischen ihnen zu berechnen und somit die Quellenposition zu schätzen.
Eine tiefes Lernverfahren, das mehrere Merkmale und Aufmerksamkeitsmechanismen nutzt, um den Ort und die Klasse der Schallquelle zu schätzen.
Unser Ansatz nutzt den relativen Übertragungsfunktion (RTF) als akustisches Merkmal und die lokale konforme Autoencoder-Methode (LOCA), um eine robuste und effiziente Rekonstruktion der akustischen Szene in reverberierenden Umgebungen zu ermöglichen, ohne auf die Schätzung der Laufzeitdifferenz zwischen Mikrofonen angewiesen zu sein.