SpikEmo 框架透過結合尖峰神經網路和語義與動態兩階段建模方法,有效捕捉對話中多模態情感數據的複雜時間特徵,從而提升對話情感識別的準確性。
Emotion-LLaMA 模型透過整合音訊、視覺和文字輸入,並利用特定情緒編碼器和指令微調,顯著提升了情感識別和推理能力,為多模態情感分析設定了新的基準。
透過聯合微調語音和文字模態的「類 BERT」自監督學習(SSL)模型,可以顯著提高多模態語音情感識別的效能。
提早融合語音和文本模態的情感信息可以增強多模態情感識別模型的性能。
提出一個基於超圖自編碼器和對比學習的多模態融合框架,能夠自適應調整超圖連接,並利用對比學習減輕隨機因素的影響,在IEMOCAP和MELD數據集上取得了優秀的性能。
本文提出了一種階層式超複雜模型,能夠有效地從腦電圖(EEG)和周邊生理信號中識別情感。該模型由編碼器和超複雜融合模塊組成,分別學習單一模態內部的相關性和不同模態之間的相關性,從而獲得更豐富的特徵表示。
本文提出了一種基於視覺語言提示學習和模態丟棄的多模態情感識別方法,以提高情感識別的準確性和泛化性能。
本文提出一種利用聲學特徵適應和視覺特徵對齊的多模態情感識別方法,以提高情感識別的準確性。
本文提出了一種利用對比學習和自我訓練的多模態情感識別方法,以解決有限標記樣本的問題。