Core Concepts
深層学習モデルは音源位置推定において、マイクロフォン信号の相関関係を学習し、雑音やリバーブの影響を低減することで、より正確な位置推定を行うことが明らかになった。
Abstract
本研究では、音源位置推定のための2つの深層学習モデル(LocCNNとSampleCNN)を対象に、レイヤー単位の関連性伝播(LRP)手法を用いて分析を行った。
まず、LRPを用いて入力特徴量の重要度を可視化したところ、両モデルともに、音声信号の立ち上がりや停止部分に高い関連性を示すことが分かった。これは、モデルが音声の内容ではなく、時間的な情報に着目していることを示唆している。
次に、マイクロフォン信号とLRPで得られた関連性信号からGeneralized Cross Correlation with Phase Transform (GCC-PHAT)を算出したところ、関連性信号を用いた場合の方が、スプリアスなピークが少なく、時間差推定の精度が高いことが分かった。
さらに、時間差推定の実験を行ったところ、両モデルともに、マイクロフォン信号よりも関連性信号を用いた方が、雑音やリバーブの影響が小さく、より正確な時間差推定ができることが示された。
これらの結果から、両モデルは、マイクロフォン信号の相関関係を学習し、雑音やリバーブの影響を低減することで、より正確な音源位置推定を行っていることが明らかになった。
Stats
マイクロフォン信号を用いた場合、時間差推定の異常推定確率は以下のとおり:
SNR 25dB, T60 0.15s: 2.64%
SNR 20dB, T60 0.3s: 6.39%
SNR 15dB, T60 0.4s: 13.0%
SNR 10dB, T60 0.6s: 15.98%
一方、LRPで得られた関連性信号を用いた場合、時間差推定の異常推定確率は以下のとおり:
SNR 25dB, T60 0.15s: 0.0%
SNR 20dB, T60 0.3s: 0.17%
SNR 15dB, T60 0.4s: 3.0%
SNR 10dB, T60 0.6s: 1.04%