本論文では、第2回マルチモーダル感情認識チャレンジのトラック1(MER2024-SEMI)に対する解決策を提案する。感情認識の精度と一般化性能を向上させるために、以下の手法を提案する:
EmoVCLIP: CLIP をベースに、ビジョン-言語プロンプト学習を用いて微調整したモデル。ビデオベースの感情認識タスクに適したビデオ理解能力を持つ。
モダリティドロップアウト: 複数のモダリティ間の依存性と競合を和らげ、ロバストな情報融合を実現する。
GPT4-Baichuan: GPT4の感情抽出能力とBaichuanの中国語処理能力を組み合わせ、テキストの感情情報を強化する。
自己教師あり学習: 未ラベルデータの活用により、モデルの性能を向上させる。
実験結果から、提案手法はMER2024-SEMIトラックで1位を獲得し、テストセットで90.15%の精度を達成した。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询