核心概念
人間の発話ノイズ条件下において、目標話者抽出手法を用いることで、音声感情認識の精度を大幅に向上させることができる。
摘要
本研究では、人間の発話ノイズ条件下における音声感情認識(SER)の問題に取り組むため、目標話者抽出(TSE)手法と SER を組み合わせた2段階フレームワークを提案した。
第1段階では、大規模な混合音声コーパスを用いてTSEモデルを事前学習する。第2段階では、学習済みのTSEモデルを用いて感情音声コーパスから目標話者の音声を抽出し、抽出された音声を用いてSERモデルを学習する。さらに、TSEモデルと SERモデルを同時に学習する手法も提案した。
実験の結果、提案手法は、ベースラインと比較して、無加重精度で14.33%の改善を達成し、人間の発話ノイズの影響を大幅に軽減できることを示した。また、話者性別の影響を分析した結果、異性話者混合条件下で特に良好な性能を示すことがわかった。
统计
提案手法(TSE-SER-ft)は、ベースラインと比較して無加重精度で14.33%の改善を達成した。
同性話者混合条件下では、TSE-SERモデルの無加重精度が55.95%であったのに対し、異性話者混合条件下では61.32%と大幅に向上した。
同性話者混合の入力信号のSI-SDRは0 dB、異性話者混合は0.02 dBであった。TSEモデルのSI-SDRiは、同性話者混合で1.09 dB、異性話者混合で5.22 dBと大きな差があった。
引用
"人間の発話ノイズは、SERシステムの性能を大幅に低下させる主要な課題である。"
"提案手法は、人間の発話ノイズの影響を大幅に軽減し、SERの精度を大幅に向上させることができる。"
"異性話者混合条件下では、TSEモデルが同性話者混合よりも高品質な目標話者音声を抽出できるため、SERモデルの性能が大幅に向上する。"