المفاهيم الأساسية
本文提出一種利用聲學特徵適應和視覺特徵對齊的多模態情感識別方法,以提高情感識別的準確性。
الملخص
本文提出了一種多模態情感識別框架,主要包括三個階段:
-
聲學特徵適應:
- 對HuBERT-large模型的不同層進行實驗分析,發現中間層特徵對情感識別任務更為重要。
- 提出參數高效微調(PEFT)方法,在關鍵中間層引入適配器,並動態融合不同層的特徵,提高聲學特徵的情感識別能力。
-
視覺特徵對齊:
- 利用大量未標記的視頻和音頻數據,通過對比學習的方式,將視覺特徵與聲學特徵對齊,增強視覺特徵的情感表達能力。
-
多模態特徵融合:
- 將適應後的聲學特徵、對齊後的視覺特徵和文本特徵融合,採用注意力機制進行特徵融合,進一步提高情感識別的準確性。
在MER2024-SEMI測試集上,提出的方法取得了88.90%的加權F1分數,在所有參賽隊伍中排名第四,驗證了該方法的有效性。
الإحصائيات
在Train&Val集上,使用參數高效微調(PEFT)方法的聲學特徵HLFT(16-21)的F1分數為80.24%,較基線模型提高7.42%。
在MER-SEMI測試集上,HLFT(16-21)的F1分數為84.88%,較基線模型提高1.39%。
在MER-SEMI測試集上,融合聲學、視覺和文本特徵的模型取得88.90%的F1分數,是最高成績。
اقتباسات
"本文提出一種利用聲學特徵適應和視覺特徵對齊的多模態情感識別方法,以提高情感識別的準確性。"
"在MER2024-SEMI測試集上,提出的方法取得了88.90%的加權F1分數,在所有參賽隊伍中排名第四,驗證了該方法的有效性。"