この論文では、MISP 2023 Challengeにおけるオーディオビジュアルターゲットスピーカー抽出(AVTSE)タスクに対するオーディオ品質ベースのマルチストラテジーアプローチが詳細に説明されています。研究は、異なる抽出戦略を採用し、干渉除去と音声保存のバランスを取りながら、バックエンドの自動音声認識(ASR)システムに利益をもたらすことを目指しています。実験結果は、Devセットで24.2%、Evalセットで33.2%の文字誤り率(CER)を達成し、チャレンジで2位を獲得しています。このアプローチは、高品質オーディオではガイド付きソース分離(GSS)メソッドを直接適用し、中程度または低品質オーディオでは他の方法が必要であることを示しています。さらに、DRC-NETネットワークやMEASEネットワークなどの手法が使用されており、各カテゴリーに応じて異なる処理戦略が適用されています。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies