核心概念
本稿では、因果推論を用いて、マルチモーダルな特徴からバイアスを除去することで、偽装されたクリックベイト投稿をより正確に検出する新しい手法を提案しています。
摘要
本稿は、Web上のクリックベイト投稿を検出する新しい手法を提案する研究論文である。
研究の背景
- クリックベイト投稿は、ユーザーを騙してクリックさせ、利益を得るために、目を引く虚偽の情報を使用することが多い。
- 悪意のある作成者は、検出を逃れるために、無関係な非ベイトコンテンツをベイト投稿に追加し、検出者を欺くために合法的なものに見せかけるトリックを使用する。
- 従来の検出器は、悪意のある行動につながる本質的な要因を把握するのではなく、単純な共起に基づいて予測を行う傾向があるため、このバイアスによって誤判定が発生しやすい。
提案手法
本稿では、因果推論に基づく新しいデバイアス手法を提案する。
- マルチモーダル表現の抽出: 投稿の特徴を捉えるために、テキスト、ビジュアル、言語、クロスモーダル、作成者のプロフィールなど、マルチモーダルな特徴を抽出する。
- 不変因子の分離: これらの表現には未知のバイアスが含まれている可能性があることを考慮し、因果表現学習を用いて、本質的なベイト意図を示す不変因子、特定のシナリオにおける欺瞞的なパターンを反映する因果因子、非因果的ノイズの3種類の潜在因子を分離する。
- 因果因子とノイズの分離: 不変因子を分離した後、残りの部分は、特定のシナリオにおける因果関係とノイズが混在しているため、因果介入に基づく対照学習を用いて、ノイズから価値のあるシナリオ固有の因果因子を抽出する。
- 予測とデータ拡張: 不変因果因子とシナリオ固有の因果因子を連結して多層パーセプトロン分類器を学習させ、予測を行う。また、データ拡張を用いて擬似ラベル付きデータを収集し、学習を促進する。
評価
- 3つの一般的なデータセット(CLDInst、Clickbait17、FakeNews-Net)を用いて評価実験を実施。
- 従来手法と比較して、提案手法は、精度、適合率、再現率、F1スコアなど、すべての評価指標において優れた性能を示した。
- 特に、偽装されたクリックベイト投稿の検出において、高い精度を達成した。
結論
提案手法は、因果推論を用いることで、マルチモーダルな特徴からバイアスを除去し、偽装されたクリックベイト投稿をより正確に検出することができる。
統計資料
CLDInstデータセット: 7,769件のファッション関連の投稿、うち4,260件がクリックベイトとしてタグ付け。
Clickbait17データセット: 38,517件のTwitter投稿、うち9,276件がクリックベイトとしてタグ付け。
FakeNews-Netデータセット: 23,000件以上の記事、うち約5,000件がフェイクニュースとしてタグ付け。
各データセットからランダムに選択した500件のテストサンプルを分析した結果、それぞれ約23%、26%、27%の投稿が偽装タイプであった。