แนวคิดหลัก
メームは、テキストと画像を組み合わせて、説得力のあるメッセージを伝えるために隠喩を頻繁に使用し、世論を形成する。このタスクでは、メームに埋め込まれた修辞的および心理的な説得技術を特定することを目的とする。
บทคัดย่อ
本研究は、SemEval-2024 Task 4に参加し、メームの説得力を検出するモデルの開発に取り組んだ。特に、Subtask 2に焦点を当て、メームのテキストと視覚的な要素の両方を活用してマルチラベル分類を行うことを目的とした。
提案アプローチの主な特徴は以下の通り:
- メームのキャプション生成を中間ステップとして導入し、テキストと視覚的情報の間のモダリティギャップを評価した。
- キャプション生成には、LLaVA-1.5とGPT-4を使用し、比較検討を行った。
- 生成されたキャプションを活用して、LLMs、MLLMs、LRMsなどの様々なモデルの性能を評価した。
- 最終的に、RoBERTaとCLIPを組み合わせたConcatRoBERTaモデルが最良の結果を示した。
สถิติ
メームのテキストには、しばしば因果関係の単純化、思考停止のクリシェ、中傷などの説得技術が使用されている。
提案モデルは、12のサブタスクすべてにおいてベースラインを大幅に上回る性能を示した。
Subtask 2aでは全言語で上位3位以内、Subtask 2bでは上位4位以内の成績を収めた。
คำพูด
"メームは、テキストと画像を組み合わせて、説得力のあるメッセージを伝えるために隠喩を頻繁に使用し、世論を形成する。"
"提案モデルは、12のサブタスクすべてにおいてベースラインを大幅に上回る性能を示した。"