ノイズ環境下における音声感情認識の精度向上のため、自己教師あり学習(SSL)特徴量を用いて音声区間検出(VAD)と音声感情認識(SER)をEnd-to-Endで統合する手法を提案する。
提案するGMP-ATLフレームワークは、HuBERTモデルを活用し、性別情報を含む高品質な多階層疑似ラベルを獲得し、それらを効果的に活用することで、従来手法を大幅に上回る音声感情認識精度を実現する。
音声の音響特徴と言語特徴を組み合わせることで、単一のモダリティを使用する場合よりも感情認識の性能が向上することを示した。特に、文脈依存の単語埋め込みであるBERTを使用することで、従来の単語埋め込みであるGloveよりも良い性能が得られることを明らかにした。また、IEMOCAP データセットにおいて、学習と評価の際のスピーカーやスクリプトの重複が、特に言語モデルの性能に大きな影響を与えることを指摘した。
音声感情認識の信頼性を高める統合フレームワークの提案とその効果的な実装に焦点を当てる。