核心概念
本文提出了一種稱為分段平均池化 (SAP) 的新方法,透過選擇性地關注語音片段並忽略非語音片段,以提高自監督學習 (SSL) 特徵在語音情感識別 (SER) 中的有效性,從而提高 SER 模型的性能。
摘要
透過自監督學習特徵的分段平均池化增強語音情感識別
書目資訊
Hyeon, J., Oh, Y.-H., & Choi, H.-J. (2024). Enhancing Speech Emotion Recognition through Segmental Average Pooling of Self-Supervised Learning Features. arXiv preprint arXiv:2410.12416v1.
研究目標
本研究旨在探討如何利用自監督學習 (SSL) 特徵來提升語音情感識別 (SER) 的效能。具體來說,研究提出了一種新的池化方法,稱為分段平均池化 (SAP),以解決現有 SSL 方法在處理語音和非語音片段時存在的資訊稀釋問題。
方法
- 研究採用預先訓練好的 SSL 模型 (WavLM Large) 從原始語音訊號中提取語音特徵。
- 提出分段平均池化 (SAP) 方法,該方法僅關注語音片段,而忽略非語音片段,以避免資訊稀釋。
- 結合全局平均池化 (GAP) 和 SAP,以利用整體語音訊號資訊和特定語音片段資訊。
- 採用多任務學習 (MTL) 方法,同時預測連續和離散情緒,以最大程度地利用每個數據樣本的資訊。
主要發現
- 與僅依賴 GAP 的傳統方法相比,結合 GAP 和 SAP 的方法在 IEMOCAP(英語)和 KEMDy19(韓語)兩個數據集上均表現出更優異的效能。
- 在 IEMOCAP 數據集上,該方法的未加權準確率 (UA) 和加權準確率 (WA) 分別達到 75.57% 和 74.77%,優於現有最佳方法。
- 在 KEMDy19 數據集上,該方法也展現出高度競爭力的結果,證明了其在捕捉語音情感方面的有效性。
主要結論
- SAP 方法能夠有效地利用 SSL 語音特徵,提高 SER 模型的效能。
- 結合 GAP 和 SAP 可以更好地捕捉語音訊號中的情感資訊。
- 該方法在英語和韓語數據集上均取得了顯著成果,具有廣泛的適用性。
意義
本研究提出了一種新的 SER 方法,透過有效利用 SSL 特徵,顯著提高了 SER 的效能。這項研究對於提升人機互動、虛擬助理和情感運算等領域的應用具有重要意義。
局限性和未來研究方向
- 未來的研究可以探討將 SAP 方法應用於其他 SSL 模型和 SER 數據集。
- 可以進一步研究如何優化 SAP 方法的參數,以進一步提高其效能。
- 未來的工作可以探索將 SAP 方法與其他技術(如多模態情感識別)相結合,以構建更強大的 SER 系統。
統計資料
在 IEMOCAP 數據集上,與僅使用 GAP 相比,結合 GAP 和 SAP 的方法在未加權準確率 (UA) 上提高了 1.7%,在加權準確率 (WA) 上提高了 1.5%。
在 IEMOCAP 數據集上,該方法在憤怒情緒類別中取得了最高準確率,而在快樂情緒類別中準確率最低。
在 KEMDy19 數據集上,與僅使用 GAP 相比,結合 GAP 和 SAP 的方法在未加權準確率 (UA) 上提高了 1.92%,在加權準確率 (WA) 上提高了 1.65%。
在 KEMDy19 數據集上,該方法在中性情緒類別中取得了最高準確率,而在快樂情緒類別中準確率最低。
引述
"To solve this problem, we propose Segmental Average Pooling (SAP), which focuses only on speech segments of speech signals, while ignoring non-speech segments."
"Our proposed approach, which combines GAP and SAP, achieves better performance on both datasets compared to relying solely on GAP."
"Furthermore, we achieve state-of-the-art performance on both datasets, demonstrating the effectiveness of our proposed approach."