この論文では、MISP 2023 Challengeにおけるオーディオビジュアルターゲットスピーカー抽出(AVTSE)タスクに対するオーディオ品質ベースのマルチストラテジーアプローチが詳細に説明されています。研究は、異なる抽出戦略を採用し、干渉除去と音声保存のバランスを取りながら、バックエンドの自動音声認識(ASR)システムに利益をもたらすことを目指しています。実験結果は、Devセットで24.2%、Evalセットで33.2%の文字誤り率(CER)を達成し、チャレンジで2位を獲得しています。このアプローチは、高品質オーディオではガイド付きソース分離(GSS)メソッドを直接適用し、中程度または低品質オーディオでは他の方法が必要であることを示しています。さらに、DRC-NETネットワークやMEASEネットワークなどの手法が使用されており、各カテゴリーに応じて異なる処理戦略が適用されています。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Runduo Han,X... lúc arxiv.org 03-08-2024
https://arxiv.org/pdf/2401.03697.pdfYêu cầu sâu hơn