Core Concepts
本論文は、大規模アドホック型マイクロフォンアレイを用いて、深層学習に基づく2次元スピーカー位置推定手法を提案する。具体的には、各ノードでCNNを用いてスピーカー方向を推定し、三角測量とクラスタリング手法を用いて2次元スピーカー位置を推定する。さらに、信頼性の高いノードを選択するアルゴリズムを導入し、推定精度を向上させる。
Abstract
本論文は、大規模アドホック型マイクロフォンアレイを用いた2次元スピーカー位置推定手法を提案している。
まず、各ノードでCNNを用いてスピーカー方向を推定する。次に、三角測量とクラスタリング手法を用いて2次元スピーカー位置を推定する。さらに、信頼性の高いノードを選択するアルゴリズムを導入し、推定精度を向上させる。
提案手法の特徴は以下の通りである:
アドホックノードの位置を固定する必要がなく、柔軟性が高い。
段階的なフレームワークを採用しており、DOA推定、ノード選択、クラスタリングなどの高度な技術を組み込むことができる。
従来の信号処理手法と深層学習手法を橋渡しする。
量子化誤差のない分類ベースのDOA推定アルゴリズムを採用している。
新しい実世界データセットLibri-adhoc-nodes10を提案している。
Stats
スピーカー位置の真値と推定値の平均距離誤差は、SNRが10dBの場合、円形アレイでは0.103m、線形アレイでは0.341mである。
スピーカー位置の真値と推定値の平均距離誤差は、SNRが20dBの場合、円形アレイでは0.093m、線形アレイでは0.231mである。
スピーカー位置の真値と推定値の平均距離誤差は、SNRが30dBの場合、円形アレイでは0.086m、線形アレイでは0.233mである。