本研究では、目標音抽出(TSE)のためにオーディオ基盤モデルを活用する新しいシステムを提案している。TSEは、混合音声から目標の音声を抽出する技術で、音声識別と信号抽出の2つの問題を同時に解決する必要がある。提案システムでは、事前学習済みのオーディオ基盤モデルであるMasked Modeling Duo (M2D)を活用する。
M2Dは、音声ラベル予測とマスク予測の2つの目的関数で学習されており、TSEの2つの問題に関連しているため、TSEに適していると考えられる。提案システムでは、M2Dモデルを使ってエンロールメントクリューから目標音の特徴量を得るとともに、入力混合音声の特徴量も得る。これらの特徴量をSoundBeamモデルに入力することで、目標音の識別と抽出の性能が向上する。
実験の結果、M2Dモデルを活用することで、特にエンロールメントクリューを使う場合に大幅な性能向上が確認された。これは、M2Dモデルが目標音の特徴を効果的に捉えられるためと考えられる。また、オンラインTSEモデルであるWaveformerでも同様の効果が確認された。
今後の課題としては、M2Dモデルのカウンタル実装の検討や、M2Dモデルとの統合をより深く行うことで、オンラインTSEの性能をさらに向上させることが挙げられる。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Carlos Herna... a las arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12528.pdfConsultas más profundas