핵심 개념
提出一個基於超圖自編碼器和對比學習的多模態融合框架,能夠自適應調整超圖連接,並利用對比學習減輕隨機因素的影響,在IEMOCAP和MELD數據集上取得了優秀的性能。
초록
本文提出了一個名為HAUCL的多模態情感識別框架,包括以下五個模塊:
- 單模態編碼:設計不同的編碼方法提取文本、聲音和視覺特徵,並融合說話人信息。
- 超圖構建:首先構建一個完全連接的初始超圖,然後利用變分超圖自編碼器(VHGAE)動態調整超圖連接,以減少冗餘信息。
- 超圖卷積:在重構的超圖上進行節點和超邊的卷積,以捕捉上下文信息。
- 超圖對比學習:設計雙路徑方案,最小化兩個超圖之間對應節點的差異,同時最大化節點之間的差異,以提高模型的穩定性。
- 情感分類器:將融合的節點表示輸入分類器,預測每個utterance的情感標籤。
實驗結果表明,HAUCL在IEMOCAP和MELD數據集上的準確率和加權F1值均優於目前最先進的方法。此外,HAUCL的訓練時間和模型大小也優於其他方法。
통계
在IEMOCAP數據集上,HAUCL的整體準確率和加權F1值分別為70.30%和70.27%。
在MELD數據集上,HAUCL的整體準確率和加權F1值分別為68.05%和66.72%。
인용구
"提出一個基於超圖自編碼器和對比學習的多模態融合框架,能夠自適應調整超圖連接,並利用對比學習減輕隨機因素的影響。"
"實驗結果表明,HAUCL在IEMOCAP和MELD數據集上的準確率和加權F1值均優於目前最先進的方法。"