核心概念
本文提出了一種基於視覺語言提示學習和模態丟棄的多模態情感識別方法,以提高情感識別的準確性和泛化性能。
摘要
本文提出了以下方法:
EmoVCLIP: 基於CLIP的視覺語言提示學習模型,用於視頻情感識別任務。通過在CLIP上進行提示學習,EmoVCLIP可以提高CLIP在情感視頻上的性能。
模態丟棄: 為了解決多模態融合中的模態依賴問題,我們採用模態丟棄的方法來實現鲁棒的信息融合。
GPT4-Baichuan: 我們建議使用GPT4作為Baichuan的提示,以增強Baichuan在提取情感信息方面的能力。
自我訓練: 我們利用自我訓練策略來利用未標記的視頻。在這個過程中,我們使用我們模型生成的高置信度的偽標籤的未標記視頻,並將其納入訓練集。
實驗結果表明,我們的模型在MER2024-SEMI賽道中排名第一,在測試集上達到了90.15%的準確率。
統計資料
我們的模型在測試集上達到了90.15%的準確率,優於最佳基線結果3%。
使用模態丟棄比不使用更有利於不同模態的融合,緩解了模態依賴和競爭的影響。