核心概念
バックエンドの自動音声認識システムに利益をもたらす、オーディオ品質ベースのマルチストラテジーアプローチの重要性。
要約
この論文では、MISP 2023 Challengeにおけるオーディオビジュアルターゲットスピーカー抽出(AVTSE)タスクに対するオーディオ品質ベースのマルチストラテジーアプローチが詳細に説明されています。研究は、異なる抽出戦略を採用し、干渉除去と音声保存のバランスを取りながら、バックエンドの自動音声認識(ASR)システムに利益をもたらすことを目指しています。実験結果は、Devセットで24.2%、Evalセットで33.2%の文字誤り率(CER)を達成し、チャレンジで2位を獲得しています。このアプローチは、高品質オーディオではガイド付きソース分離(GSS)メソッドを直接適用し、中程度または低品質オーディオでは他の方法が必要であることを示しています。さらに、DRC-NETネットワークやMEASEネットワークなどの手法が使用されており、各カテゴリーに応じて異なる処理戦略が適用されています。
統計
実験結果はDevセットで24.2%、Evalセットで33.2%のCERを達成した。
DNSMOS OVRLスコア1.5 + γ以上は高品質と分類される。
閾値γは0.3で最良結果が得られた。
フュージョンブロックとMEASEネットワークの組み合わせは効果的であることが示された。
GSSやMEASEモデルよりも我々のアプローチが優れたCER結果を示した。
引用
"Various research has been conducted in this field."
"Our approach achieves a character error rate (CER) of 24.2% and 33.2% on the Dev and Eval set, respectively."
"The fusion block, when combined with the MEASE network, achieves an enhanced CER compared to using the MEASE network alone."