核心概念
本稿では、アラビア語ミームにおけるプロパガンダコンテンツを検出するための初のデータセットであるArMemeを紹介し、そのデータセットを用いた複数の手法による実験結果を報告しています。
要約
アラビア語ミームにおけるプロパガンダコンテンツの分析
本稿は、アラビア語ミームにおけるプロパガンダコンテンツを検出するための初のデータセットであるArMemeを紹介する研究論文です。
研究目的
- アラビア語ミームにおけるプロパガンダコンテンツを自動的に検出するためのデータセットを作成する。
- 作成したデータセットを用いて、様々なモデルのプロパガンダ検出性能を評価する。
データセット
- Facebook、Instagram、Pinterest、Twitterから収集した約6,000件のアラビア語ミームを、"プロパガンダ"、"プロパガンダではない"、"ミームではない"、"その他"の4つのカテゴリに手動でアノテーションを付与。
- アノテーションの信頼性を確保するため、複数のアノテーターによるアノテーションを行い、専門家によるレビューを実施。
実験と結果
- テキストベース、画像ベース、マルチモーダルなモデルを用いて、プロパガンダ検出性能を評価。
- テキストベースのモデルでは、事前学習済み言語モデルであるAraBERTとQaribが優れた性能を示した。
- 画像ベースのモデルでは、ResNet50が最も高い性能を示した。
- マルチモーダルなモデルでは、ConvNeXtとAraBERTを組み合わせたモデルが最も高い性能を示した。
- また、ゼロショット学習設定における大規模言語モデル(LLM)の性能も評価したが、ファインチューニングされたモデルと比較して、精度は低い結果となった。
結論
- ArMemeは、アラビア語ミームにおけるプロパガンダコンテンツを検出するための貴重なリソースとなる。
- ファインチューニングされたモデルは、LLMよりも高いプロパガンダ検出性能を示した。
意義
- 本研究は、ソーシャルメディアにおけるプロパガンダの拡散を理解し、対策するための基盤となる。
- ArMemeデータセットは、アラビア語における自然言語処理研究の進展に貢献する。
制限と今後の研究
- データセットの規模が比較的小さく、クラスの偏りも大きい。
- 今後は、データセットの規模を拡大し、より多くのアノテーションを追加する必要がある。
- また、より高度なモデルの開発や、異なる文化圏におけるプロパガンダ検出への応用が期待される。
統計
データセットは、"プロパガンダではない"が約66%と大半を占め、"プロパガンダ"がそれに続く。
"ミームではない"と"その他"のクラスは、他の2つに比べて非常に少ない。
データ提供元別に見ると、Instagramからのミームが最も多く、Twitterからのミームは非常に少ない。
Facebookでは、プロパガンダミームの割合が、プロパガンダではないミームよりも高い。
引用
"Propaganda is a form of communication designed to influence people’s opinions or actions toward a specific goal, employing well-defined rhetorical and psychological techniques."