Die Studie untersucht zwei Deep-Learning-Architekturen für die End-to-End-Sprachquellenlokalisation, LocCNN und SampleCNN, und wendet die Methode der schichtweisen Relevanzausbreitung (LRP) an, um zu verstehen, welche Teile der Eingangssignale für die Netzwerkvorhersage wichtiger sind.
Die Analyse der Relevanzsignale zeigt, dass die Netzwerke nicht die Sprachinhalte, sondern eher den zeitlichen Verlauf der Signale nutzen, um die Quellenposition zu schätzen. Dies wird durch die Berechnung der verallgemeinerten Kreuzkorrelation mit Phasentransformation (GCC-PHAT) bestätigt, bei der die aus den Relevanzsignalen berechneten GCC-PHAT-Funktionen weniger Artefakte aufweisen als die aus den Mikrofonsignalen berechneten.
Um dies weiter zu untersuchen, wird die Genauigkeit der Schätzung der Laufzeitdifferenz (TDoA) zwischen Mikrofonpaaren verglichen, wobei die aus den Relevanzsignalen berechneten TDoAs genauer sind als die aus den Mikrofonsignalen berechneten. Dies deutet darauf hin, dass die Netzwerke die Mikrofonsignale entverrauschen und entprallen, um die statistischen Korrelationen zwischen ihnen zu verbessern und somit die Quellenposition genauer zu schätzen.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Luca Comandu... о arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03436.pdfГлибші Запити