本研究では、LGBTQムーブメントに関連する5,063件のテキストを含む画像からなるPrideMM データセットを提供する。このデータセットには、憎悪、ターゲット、スタンス、ユーモアの4つの側面でアノテーションが付与されている。
研究では、まず各側面の分類タスクに対するベースラインモデルの性能を評価する。次に、CLIPの知識を活用し、モダリティ間の表現を分離しながら過学習を防ぐMemeCLIPと呼ぶ新しい手法を提案する。MemeCLIPは、クラスの不均衡に強いコサイン分類器を採用し、セマンティックな初期化も行う。
実験の結果、MemeCLIPはPrideMM及びHarMemeデータセットにおいて、既存の手法を上回る性能を示した。さらに、ゼロショットのGPT-4との比較でも優位性が確認された。
本研究は、LGBTQムーブメントに関するオンラインコンテンツの多面的な理解と、より包括的なコンテンツ制御に貢献する。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы