แนวคิดหลัก
本論文は、多空間融合モジュール(MF)と階層的協調注意モジュール(HCA)を組み合わせた新しい音声感情認識手法(MFHCA)を提案する。MFはスペクトログラムの時間・周波数方向の特徴を効果的に抽出し、HCAはスペクトログラムとHubertモデルの特徴を階層的に融合することで、感情関連情報を強化する。
บทคัดย่อ
本論文は、音声感情認識(SER)の性能向上を目的とした新しい手法MFHCA(Multi-Spatial Fusion and Hierarchical Cooperative Attention)を提案している。
まず、MFモジュールを用いて、スペクトログラムから時間方向と周波数方向の特徴を抽出する。MFは、Global Receptive Field(GRF)ブロックを使って、感情関連の特徴を効果的に捉える。
次に、HCAモジュールを使って、MFで抽出したスペクトログラム特徴とHubertモデルから得られる特徴を階層的に融合する。HCAは、スペクトログラム特徴をガイドとして使い、Hubertの特徴に注目させることで、感情関連情報をより強調する。
最後に、融合された特徴を用いて感情分類を行う。
実験では、IEMOCAP データセットを用いて評価を行い、既存手法と比較して、加重精度(WA)で2.6%、非加重精度(UA)で1.87%の改善を達成した。
提案手法の特徴は以下の通り:
MFによる時間・周波数方向の特徴抽出と、HCAによる階層的特徴融合の組み合わせが効果的
Hubertモデルの特徴と低レベルのスペクトログラム特徴を統合することで、感情関連情報を強化
既存手法と比べて、パラメータ数が54.26%少ない軽量な構造
สถิติ
スペクトログラムの時間方向と周波数方向の特徴を抽出することで、感情関連情報を効果的に捉えられる。
Hubertモデルの特徴とスペクトログラム特徴を階層的に融合することで、感情関連情報をより強調できる。
提案手法は既存手法と比べて、パラメータ数が54.26%少ない軽量な構造を持つ。