核心概念
本論文では、自動音声認識と統合した感情ニューラルトランスデューサを提案し、発話レベルの感情認識と詳細な感情認識の両方を実現する。
要約
本論文は、音声感情認識(SER)の新しいアプローチを提案している。従来のSERは発話全体の単一の感情ラベルを識別するものが主流だが、感情の時間的変化を捉えられないという問題がある。
本論文では、感情ニューラルトランスデューサ(ENT)を提案し、自動音声認識(ASR)と統合することで、発話の文字起こしと感情の同時予測を実現する。具体的には以下の3つの特徴がある:
感情joint networkを構築し、音響特徴と言語情報を統合して感情ラティスを生成する。これにより、発話内の感情変化を詳細にモデル化できる。
ラティス最大プーリング損失を導入し、感情的な部分と非感情的な部分を自動的に識別できるようにする。
ブランク記号を感情の指標としても使う「Factorized ENT」を提案し、ASR性能を維持しつつ詳細な感情認識を実現する。
実験では、ベンチマークデータセットIEMOCAPでの発話レベルSERと、最新の感情ダイアライゼーションデータセットZEDでの詳細な感情認識の両方で、提案手法の優位性を示している。
統計
発話レベルのSERでは、提案手法ENTがIEMOCAPデータセットで72.43%の重み付き正解率を達成し、最新の手法を上回っている。
詳細な感情認識では、提案手法FENTがZEDデータセットで55.07%の感情ダイアライゼーションエラー率を達成し、従来手法より4.6ポイント改善している。