Conceptos Básicos
リアルな環境で録音された大規模なマイクロフォンアレイデータセットRealMANを提案し、深層学習ベースの音声強化と位置推定のためのベンチマークとして活用できる。
Resumen
本論文では、リアルな環境で録音された大規模なマイクロフォンアレイデータセットRealMANを提案している。このデータセットは以下の2つの点で価値がある:
実際の環境における音声強化と位置推定アルゴリズムのベンチマーキング
実世界のアプリケーションの性能向上のための大量の実データの提供
具体的には、32chのマイクロフォンアレイを使用して、様々な屋内、屋外、半屋外、交通環境で合計83.7時間の音声信号と144.5時間の背景雑音を録音した。音声信号には静止話者と移動話者の両方が含まれる。
音声信号に対しては、直接経路の音声信号と話者位置の注釈を提供している。これにより、深層学習ベースの音声強化と位置推定のための適切な教師信号を得ることができる。
ベースライン実験の結果、シミュレーションデータを使用するよりも本データセットを使用して学習した方が、音声強化と位置推定の性能が向上することが示された。また、本32chアレイのサブアレイを使ってバリアブルアレイネットワークを学習できることも示された。
Estadísticas
音声信号の平均SPLは68 dB (61 dBA)、背景雑音の平均SPLは57 dB (36 dBA)
話者位置の高さは1.3 m ~ 1.6 mの範囲で変化
話者と阵列の距離は0.5 m ~ 5 mの範囲