Основные понятия
本稿では、音声セグメントのみに焦点を当てたセグメント平均プーリング(SAP)を提案し、グローバル平均プーリング(GAP)と組み合わせることで、自己教師あり学習(SSL)特徴を用いた音声感情認識の精度向上を実現する。
Аннотация
自己教師あり学習特徴のセグメント平均プーリングによる音声感情認識の向上
書誌情報: Hyeon, J., Oh, Y.-H., & Choi, H.-J. (2024). Enhancing Speech Emotion Recognition through Segmental Average Pooling of Self-Supervised Learning Features. arXiv preprint arXiv:2410.12416v1.
研究目的: 自己教師あり学習(SSL)特徴を用いた音声感情認識(SER)において、音声セグメントのみに焦点を当てたセグメント平均プーリング(SAP)を提案し、従来のグローバル平均プーリング(GAP)と組み合わせることで、SERの精度向上を目指す。
方法:
SSLモデル(WavLM Large)を用いて、音声信号から文脈化された音声特徴を抽出する。
音声セグメントと非音声セグメントを区別するために、音声活動検出(VAD)アルゴリズムを使用する。
SAPを用いて、音声セグメントからの特徴のみを平均プーリングする。
GAPとSAPを組み合わせた特徴表現を作成し、分類器と回帰器に用いる。
IEMOCAP(英語)とKEMDy19(韓国語)の2つのデータセットを用いて、提案手法の有効性を評価する。
主な結果:
提案手法であるGAPとSAPの組み合わせ(SR)は、IEMOCAPとKEMDy19の両方のデータセットにおいて、GAPのみを用いた場合よりも高い精度を達成した。
IEMOCAPデータセットにおいて、SRは、非重み付け精度(UA)と重み付け精度(WA)の両方で、従来の最先端手法を上回る性能を達成した。
KEMDy19データセットにおいても、SRはGAPよりも高い精度を示し、提案手法の有効性が示された。
結論:
本研究では、音声セグメントのみに焦点を当てたSAPを提案し、GAPと組み合わせることで、SSL特徴を用いたSERの精度が向上することを示した。この結果は、音声感情認識における非音声セグメントの影響の大きさを示唆しており、今後の研究においても重要な要素となる可能性がある。
今後の研究:
他のSSLモデルやVADアルゴリズムを用いた場合の提案手法の有効性を検証する。
提案手法を、より複雑な音声感情認識タスクや、ノイズの多い環境における音声感情認識タスクに適用する。
Статистика
IEMOCAPデータセットは、合計5つのセッションで構成され、各セッションでは、1人の男性話者と1人の女性話者が会話をしている。
IEMOCAPデータセットでは、「excited」とラベル付けされた発話は「happy」に統合され、「angry」「happy」「neutral」「sad」の4つの感情クラスのみが考慮される。
IEMOCAPデータセットにおける、「angry」「happy」「neutral」「sad」を表す発話数は、それぞれ1103、1636、1708、1084である。
KEMDy19データセットは、20のセッションで構成され、各セッションでは、1人の男性話者と1人の女性話者が会話をしている。
KEMDy19データセットでは、「angry」「happy」「neutral」「sad」の4つの感情クラスが考慮される。
KEMDy19データセットにおける、「angry」「happy」「neutral」「sad」を表す発話数は、それぞれ1530、1313、4328、773である。
IEMOCAPデータセットでは、8分割、1分割、1分割をそれぞれトレーニング、検証、テストセットとして、leave-one-speaker-out 10分割交差検証を実施した。
KEMDy19データセットでは、38分割、1分割、1分割をそれぞれトレーニング、検証、テストセットとして、leave-one-speaker-out 40分割交差検証を実施した。
提案手法であるSRは、IEMOCAPデータセットにおいて、UAで75.57%、WAで74.77%の精度を達成した。
提案手法であるSRは、KEMDy19データセットにおいて、UAで66.26%、WAで68.27%の精度を達成した。