核心概念
単一モーダルと多モーダルのモデルを統合し、感情・文化に特化したプロンプトを設計することで、多言語・多文化データにおける感情予測の性能を向上させた。
摘要
本報告は、WECIA感情予測コンペティションにおける著者らの取り組みを詳述したものである。
コンペティションのデータセットであるArtELingoは、言語・文化の多様性を反映しているが、モーダルの不均衡や言語・文化の違いが課題となっていた。
著者らは以下の2つのアプローチを提案した:
- 単一モーダルモデル(XLM-R)と多モーダルモデル(X2-VLM)を組み合わせ、言語モーダルの情報を効果的に活用する。
- 感情と文化に特化したプロンプトを設計し、言語・文化の違いを軽減する。
具体的には、入力テキストに対して、作品のスタイル、言語、コメントなどの情報を付加したプロンプトを生成し、さらに、同じ言語の訓練データから最も類似したサンプルのラベルを擬似ラベルとして組み込むことで、文化的な違いに対処した。
最終的に、この手法により、コンペティションの最終テストで0.627のF1スコアを達成し、1位を獲得した。
統計資料
単一モーダルのベースラインモデル(BERT、ViT)は、感情予測の精度が低く、1/9の確率を上回ることができなかった。
提案手法のXLM-Rモデルは0.613のF1スコアを、X2-VLMモデルは0.619のF1スコアを達成した。
プロンプトを付加することで、XLM-Rは0.618、X2-VLMは0.622のF1スコアに改善された。
引述
"単一モーダルでは良好な結果が得られず、テキストモーダルの情報がより重要であることが示された。"
"プロンプトの付加により、単一モーダル、多モーダルともに性能が向上し、適切なプロンプトの設計が重要であることが確認された。"