本研究では、人間の発話ノイズ条件下における音声感情認識(SER)の問題に取り組むため、目標話者抽出(TSE)手法と SER を組み合わせた2段階フレームワークを提案した。
第1段階では、大規模な混合音声コーパスを用いてTSEモデルを事前学習する。第2段階では、学習済みのTSEモデルを用いて感情音声コーパスから目標話者の音声を抽出し、抽出された音声を用いてSERモデルを学習する。さらに、TSEモデルと SERモデルを同時に学習する手法も提案した。
実験の結果、提案手法は、ベースラインと比較して、無加重精度で14.33%の改善を達成し、人間の発話ノイズの影響を大幅に軽減できることを示した。また、話者性別の影響を分析した結果、異性話者混合条件下で特に良好な性能を示すことがわかった。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jinyi Mi, Xi... klokken arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19585.pdfDypere Spørsmål