本論文では、リアルな環境で録音された大規模なマイクロフォンアレイデータセットRealMANを提案している。このデータセットは以下の2つの点で価値がある:
具体的には、32chのマイクロフォンアレイを使用して、様々な屋内、屋外、半屋外、交通環境で合計83.7時間の音声信号と144.5時間の背景雑音を録音した。音声信号には静止話者と移動話者の両方が含まれる。
音声信号に対しては、直接経路の音声信号と話者位置の注釈を提供している。これにより、深層学習ベースの音声強化と位置推定のための適切な教師信号を得ることができる。
ベースライン実験の結果、シミュレーションデータを使用するよりも本データセットを使用して学習した方が、音声強化と位置推定の性能が向上することが示された。また、本32chアレイのサブアレイを使ってバリアブルアレイネットワークを学習できることも示された。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies