Conceptos Básicos
SpikEmo 框架透過結合尖峰神經網路和語義與動態兩階段建模方法,有效捕捉對話中多模態情感數據的複雜時間特徵,從而提升對話情感識別的準確性。
摘要
本文介紹了一種名為 SpikEmo 的新型框架,專為解決對話情感識別 (ERC) 任務中的核心挑戰而設計。該框架採用兩階段模態-時間建模方法,整合了目標特徵提取和特徵級動態上下文建模,能夠有效捕捉時間特徵並突顯關鍵的情感轉變。此外,SpikEmo 還解決了類別不平衡和語義相似性等關鍵挑戰,顯著提高了 ERC 任務在多個數據集上的性能。在 MELD 和 IEMOCAP 上進行的實驗驗證表明,SpikEmo 優於現有的最先進模型,包括基於大型語言模型 (LLM) 的模型,證實了其在增強人機交互和心理健康分析中情感識別方面的潛力。
主要貢獻
提出了一種針對 ERC 任務的新框架 SpikEmo,採用兩階段模態-時間建模方法來表示不同的模態表示並提取尖峰時間特徵。
利用最先進的模態融合技術,並針對 ERC 任務設計了組合優化目標,以解決不同情感之間的類別不平衡和語義相似性問題。
在標準 ERC 任務數據集 MELD 和 IEMOCAP 上進行了廣泛的實驗。實驗結果表明,該方法優於現有的基於判別模型和 LLM 的最先進方法,證實了該模型的有效性。
模型介紹
SpikEmo 框架的核心是語義與動態兩階段建模方法,該方法包括以下兩個階段:
1. 模態級語義建模
在這一階段,模型針對文本、音頻和視頻模態提取模態特徵。具體來說,對於文本模態,模型使用預先訓練的 RoBERTa 模型將文本語句序列處理成文本表示。對於音頻模態,模型使用 OpenSMILE 提取每個語句音頻的 6373 維特徵,然後使用 DialogueRNN 捕捉上下文相關的音頻表示。對於視頻模態,模型使用 VisExtNet 從多個幀中提取對話者的面部表情特徵,然後使用 DialogueRNN 學習上下文相關的視覺表示。
2. 特徵級動態上下文建模
在這一階段,模型引入了動態尖峰權重適應 (DSWA) 模塊來提取輸入的時間特徵。DSWA 的核心是尖峰自注意力層,它利用 SNN 的動態特性來模擬隨時間推移的依賴關係和交互作用。通過堆疊多個 SSA 層,然後是線性和歸一化層,模型獲得了輸出尖峰表示。然後,模型使用 softmax 函數確定每個模態特徵的重要性權重,並將這些權重與原始模態特徵相乘,以突出顯示對於識別情感狀態特別重要的時刻。最後,模型引入了一個殘差結構,將時間加權增強特徵與原始模態特徵合併。
優化目標
為了提高模型在 ERC 任務上的性能,研究人員在優化過程中考慮了兩個關鍵問題:
在 ERC 任務中,某些情感(例如憤怒和厭惡)在多模態上下文中表現出高度相似的語義表達。
ERC 任務的數據集通常表現出嚴重的長尾分佈問題。
為了解決問題(1),研究人員引入了 Lcorr 損失函數,用於有效地捕捉和利用不同模態特徵之間的複雜關聯。為了解決問題(2),研究人員引入了 DSC 損失函數,該函數採用了一種自我調節機制,通過使用 1-p 作為縮放因子來減少對易於預測的樣本(即預測概率接近 1 或 0 的樣本)的關注。
實驗結果
研究人員在 MELD 和 IEMOCAP 數據集上,將 SpikEmo 模型的性能與兩種類別的基準模型進行了系統比較:傳統判別方法和基於大型語言模型 (LLM) 的方法。實驗結果表明,SpikEmo 模型在兩個數據集上都取得了最先進的性能。
總結
SpikEmo 框架通過結合尖峰神經網路和語義與動態兩階段建模方法,有效捕捉對話中多模態情感數據的複雜時間特徵,從而提升對話情感識別的準確性。實驗結果表明,SpikEmo 在多個數據集上都取得了最先進的性能,證實了其在增強人機交互和心理健康分析中情感識別方面的潛力。
Estadísticas
在 MELD 數據集上,SpikEmo 模型的性能比之前最好的模型提高了 1.49%。
在 IEMOCAP 數據集上,SpikEmo 模型的性能比之前最好的模型提高了 1.50%。
在 MELD 數據集的“恐懼”類別和 IEMOCAP 數據集的“快樂”類別等尾部類別中,SpikEmo 模型的性能分別比之前最好的模型提高了 0.17% 和 2.41%。
SpikEmo 模型的參數數量僅為領先 LLM 的 0.5%,但性能指標卻非常接近。