本論文では、無監督学習による改善MVDR (Minimum Variance Distortionless Response) ビームフォーミングを提案している。この手法は、多チャンネル入力を活用しつつ、単一チャンネルのデータを用いた無監督学習によって音声強化を行うことができる。
まず、短時間フーリエ変換 (STFT) を用いて入力信号を周波数領域に変換する。次に、単一チャンネルの無監督ニューラルネットワークを使って信号分離を行う。その後、推定された目標信号を用いてMVDRビームフォーミングを適用し、さらに信号を強化する。最後に、逆STFTを用いて時間領域の出力信号を得る。
提案手法の評価には、新たに作成したマルチチャンネルデータセット (MCFSTD) を使用した。実験の結果、提案手法は監督学習モデルよりも優れた性能を示し、特に訓練データが限られている場合に有効であることが分かった。また、オンラインで入手可能なデータを使うことで、マルチチャンネルアプローチに必要なデータ収集の労力を軽減できることも示された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jaco... alle arxiv.org 10-02-2024
https://arxiv.org/pdf/2406.06310.pdfDomande più approfondite