本文提出了一種用於多模態情感識別的新方法。首先,作者開發了一個基於大規模數據預訓練和微調的Emotion ViT視覺特徵提取器,專門針對情感識別任務。為了解決音頻和文本模態之間的競爭問題,作者實施了一種基於大型語言模型的早期融合方法,可以充分利用音頻和文本之間的相互作用。這種聯合的音頻-文本表示可以與其他特徵進行後期融合。為了解決數據不足和類別不平衡的問題,作者採用了多輪多模型投票的數據挖掘方法。此外,為了確保音頻特徵的高質量,作者引入了語音源分離方法來消除噪音。實驗結果表明,該方法在MER2024-SEMI和MER2024-NOISE賽道中均獲得了第二名的成績,證明了其在多模態情感識別領域的有效性和魯棒性。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mengying Ge,... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.18971.pdfDeeper Inquiries