核心概念
ノイズの影響を受けにくい音声特徴を学習することで、ノイジーな環境でもアクティブスピーカーを正確に検出する。
要約
本論文は、ノイジーな環境でのアクティブスピーカー検出(rASD)の問題に取り組んでいる。
- 既存のASD手法は音声と視覚の両方のモダリティを活用するが、周辺環境の非音声音がパフォーマンスに悪影響を及ぼす。
- 提案手法は、音声分離を指針として使用し、ノイズフリーの音声特徴を学習する。これらの特徴は次にASDモデルで使用され、両タスクが端末間で最適化される。
- 固有の音声ノイズに対処するため、動的加重損失関数を提案する。
- 実世界のノイズオーディオデータセットを収集し、実験を行った。結果、非音声ノイズがASDモデルに大きな影響を与えることを示し、提案手法がノイジーな環境でのパフォーマンスを向上させることができることを実証した。
統計
音声とカフェテリアノイズが混在する環境では、既存のASDモデルの性能が19.3%低下する。
提案手法を適用することで、ノイズレベルが高い(α=1)場合でも、平均7.1%のパフォーマンス向上が得られる。
引用
"ノイズの影響を受けにくい音声特徴を学習することで、ノイジーな環境でもアクティブスピーカーを正確に検出する。"
"固有の音声ノイズに対処するため、動的加重損失関数を提案する。"