מושגי ליבה
小型マイクロホンアレイを使用して、特定の指向性パターンを持つ音声信号を取得する深層学習ベースのアプローチ
תקציר
この研究では、深層ニューラルネットワーク(DNN)を使用して、マイクロホンアレイの信号から単一チャンネルの複素マスクを推定し、それを参照マイクロホン信号に適用することで、所望の指向性パターンを実現する手法を提案している。
主な内容は以下の通り:
- 指向性パターンの学習に適したトレーニングデータセットの構成について検討した。
- 提案手法は、従来の線形および parametric な指向性フィルタリングと比較して、少数のマイクロホンでも高次の指向性パターンを実現できることを示した。
- 実験では、カーディオイドパターンと3次のDMAパターンの2つの指向性パターンを対象とし、提案手法がこれらのパターンを良好に近似できることを確認した。
- 提案手法は、音源の数が増えても安定した性能を発揮し、従来手法を大きく上回る結果を示した。
- 提案手法では、指向性パターンの詳細な制御が可能であり、空間音響キャプチャやスピーカー再生などの応用に適していることが示唆された。
סטטיסטיקה
参照マイクロホンの信号対雑音比(SDR)は概ね0 dB前後であった。
従来の最小二乗ビームフォーマーは、カーディオイドパターンを良好に近似できたが、3次のDMAパターンでは十分な性能が得られなかった。
パラメトリックベースラインは、単一音源の場合に非常に高いSDR(25.6 dB)を示したが、2音源以上の場合は性能が大幅に低下した。
提案手法のFT-JNFは、2音源以上の場合でも従来手法を大きく上回る性能を示し、カーディオイドパターンで平均26.2 dB、3次のDMAパターンで平均18.4 dBのSDRを達成した。