本文提出了以下方法:
EmoVCLIP: 基於CLIP的視覺語言提示學習模型,用於視頻情感識別任務。通過在CLIP上進行提示學習,EmoVCLIP可以提高CLIP在情感視頻上的性能。
模態丟棄: 為了解決多模態融合中的模態依賴問題,我們採用模態丟棄的方法來實現鲁棒的信息融合。
GPT4-Baichuan: 我們建議使用GPT4作為Baichuan的提示,以增強Baichuan在提取情感信息方面的能力。
自我訓練: 我們利用自我訓練策略來利用未標記的視頻。在這個過程中,我們使用我們模型生成的高置信度的偽標籤的未標記視頻,並將其納入訓練集。
實驗結果表明,我們的模型在MER2024-SEMI賽道中排名第一,在測試集上達到了90.15%的準確率。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询