本研究では、音声の音響特徴と言語特徴を組み合わせた感情認識モデルを提案している。
音響特徴モデルでは、MFCCやピッチ、ジッター、シマー、対数HNRなどの低レベル特徴を入力とした。
言語特徴モデルでは、BERTによる文脈依存の単語埋め込みを使用し、これがGloveの単語埋め込みよりも良い性能を示すことを明らかにした。
フュージョンモデルとして、早期フュージョンと後期フュージョンの2つのアプローチを検討し、それぞれ異なる学習戦略(cold-start、pre-training、warm-start)を適用した。
実験は、IEMOCAP データセットと MSP-PODCAST データセットで行った。IEMOCAP では、学習と評価のデータにスピーカーやスクリプトの重複がある場合、特に言語モデルの性能が過大評価されることを示した。
全体として、音響特徴と言語特徴を組み合わせることで、単一のモダリティを使用する場合に比べて感情認識の性能が約16%向上することを確認した。また、BERTによる単語埋め込みの有効性も示された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究