LGBTQムーブメントに関連するメームを、憎悪、ターゲット、スタンス、ユーモアの4つの側面から分析し、CLIPを活用したマルチモーダルな分類手法を提案する。
マルチモーダル学習可能クエリを利用して、画像とユーザコメントの両方から美的特徴を効率的に抽出し、新しい最先端の画像美的評価性能を達成する。
本論文は、テキストモダリティを中心とした相互作用と融合を促進するクロスアテンションネットワークを提案する。提案手法は、ノイズと冗長な情報の影響を軽減するためのゲートメカニズムを組み込み、さらにユニモーダルジョイント学習を導入することで、モダリティ間の一貫性を学習する。