本論文は、音声感情認識(SER)の性能向上を目的とした新しい手法MFHCA(Multi-Spatial Fusion and Hierarchical Cooperative Attention)を提案している。
まず、MFモジュールを用いて、スペクトログラムから時間方向と周波数方向の特徴を抽出する。MFは、Global Receptive Field(GRF)ブロックを使って、感情関連の特徴を効果的に捉える。
次に、HCAモジュールを使って、MFで抽出したスペクトログラム特徴とHubertモデルから得られる特徴を階層的に融合する。HCAは、スペクトログラム特徴をガイドとして使い、Hubertの特徴に注目させることで、感情関連情報をより強調する。
最後に、融合された特徴を用いて感情分類を行う。
実験では、IEMOCAP データセットを用いて評価を行い、既存手法と比較して、加重精度(WA)で2.6%、非加重精度(UA)で1.87%の改善を達成した。
提案手法の特徴は以下の通り:
翻譯成其他語言
從原文內容
arxiv.org
深入探究