Core Concepts
EmoDistillは、音声から感情の強力な言語的および韻律的表現を学習するための新しい音声感情認識(SER)フレームワークです。
Abstract
Abstract:
EmoDistill提案:音声から感情の言語的および韻律的表現を学習するSERフレームワーク。
訓練中に交差モーダル知識蒸留を活用し、強力な言語的および韻律的表現を学習。
推論時には、音声信号のみを使用して単一モーダルSERを実行し、計算オーバーヘッドを削減。
Introduction:
SERは重要であり、感情の言語的と韻律的情報がある。
既存の解決策には問題があり、EmoDistillはこれらの問題に対処する。
Method:
Linguistic teacherとProsodic teacherから知識を抽出して学生モデルを訓練。
Logit-level KDとembedding-level KDで知識蒸留。
Experiments:
IEMOCAPデータセットで実験。他の方法よりも優れた結果を達成。
詳細な除去実験により各コンポーネントの重要性を示す。
Results and Discussion:
EmoDistillは他の最先端手法よりも優れた結果を達成。
熱パラメータτに関する影響分析や除去実験結果が示されている。
Conclusion:
EmoDistillは音声から感情表現を学習するための新しい枠組みであり、IEMOCAPデータセットで高い精度を達成。
Stats
我々の方法は77.49%未加重正解率と78.91%加重正解率で最先端性能を達成しています。