本研究は、中国の文脈におけるPCLの定義を明確化し、Bilibiliから715本の動画からなるPCLMMデータセットを構築した。データセットには、PCLとnon-PCLの動画が含まれ、PCL動画にはPCLの表情フレームが注釈されている。
研究では、表情特徴、動画、テキスト、オーディオの4つのモダリティを統合したマルチモーダルPCLディテクター(MultiPCL)を提案した。実験の結果、MultiPCLは単一モダリティや複数モダリティの手法よりも優れた性能を示し、PCLの検出において表情特徴の重要性が確認された。
さらに、感情分析とトキシシティ分析の結果から、PCLはある程度の曖昧性を持つことが明らかになった。提案手法は、このような微妙な特徴を効果的に捉えることができる。
本研究は、マイクロアグレッションの検出分野における重要な貢献であり、中国語コンテキストにおけるPCLの検出に新たな知見をもたらした。今後の課題として、皮肉やステレオタイプなどのマイクロアグレッションの影響を探索し、提案手法をマルチモーダルの大規模言語モデルに適用することが考えられる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hongbo Wang,... kl. arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.05005.pdfDybere Forespørgsler