Die Studie untersucht zwei Deep-Learning-Architekturen für die End-to-End-Sprachquellenlokalisation, LocCNN und SampleCNN, und wendet die Methode der schichtweisen Relevanzausbreitung (LRP) an, um zu verstehen, welche Teile der Eingangssignale für die Netzwerkvorhersage wichtiger sind.
Die Analyse der Relevanzsignale zeigt, dass die Netzwerke nicht die Sprachinhalte, sondern eher den zeitlichen Verlauf der Signale nutzen, um die Quellenposition zu schätzen. Dies wird durch die Berechnung der verallgemeinerten Kreuzkorrelation mit Phasentransformation (GCC-PHAT) bestätigt, bei der die aus den Relevanzsignalen berechneten GCC-PHAT-Funktionen weniger Artefakte aufweisen als die aus den Mikrofonsignalen berechneten.
Um dies weiter zu untersuchen, wird die Genauigkeit der Schätzung der Laufzeitdifferenz (TDoA) zwischen Mikrofonpaaren verglichen, wobei die aus den Relevanzsignalen berechneten TDoAs genauer sind als die aus den Mikrofonsignalen berechneten. Dies deutet darauf hin, dass die Netzwerke die Mikrofonsignale entverrauschen und entprallen, um die statistischen Korrelationen zwischen ihnen zu verbessern und somit die Quellenposition genauer zu schätzen.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Luca Comandu... klo arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03436.pdfSyvällisempiä Kysymyksiä