核心概念
本研究では、Twitter、Reddit、Instagramの3つのソーシャルメディアプラットフォームにわたって社会ボットを検出する多様なプラットフォームにわたる検出器を提案する。不完全なデータ入力、最小限の特徴量抽出、各データフィールドに最適化された分類器、分類判定のしきい値設定の必要性の排除などの設計上の工夫により、複数のプラットフォームにわたって汎用的に適用できる検出器を実現している。また、ユーザー名のエントロピーや相互作用数(リツイート/共有)が社会ボットの判別に重要な要因であることを明らかにした。最後に、この検出器を2020年の米国大統領選の分析に適用し、プラットフォームの違いによる社会ボットの振る舞いの差異を示した。
要約
本研究では、Twitter、Reddit、Instagramの3つのソーシャルメディアプラットフォームにわたって社会ボットを検出する多様なプラットフォームにわたる検出器を提案している。
まず、不完全なデータ入力、最小限の特徴量抽出、各データフィールドに最適化された分類器、分類判定のしきい値設定の必要性の排除などの設計上の工夫により、複数のプラットフォームにわたって汎用的に適用できる検出器を実現している。
次に、特徴量重要度分析を行い、ユーザー名のエントロピーや相互作用数(リツイート/共有)が社会ボットの判別に重要な要因であることを明らかにした。
最後に、この検出器を2020年の米国大統領選の分析に適用し、プラットフォームの違いによる社会ボットの振る舞いの差異を示した。Redditでは、メール投票に関する虚偽情報の拡散が目立ち、Twitterでは不正選挙への抗議の呼びかけが多かった。
統計
ユーザー名のエントロピーが高いほど、そのアカウントがボットである可能性が高い。
投稿の共有(リツイート)数が多いほど、そのアカウントがボットである可能性が高い。
自己アイデンティティを表す言葉(ライター、ママ、ホスト、著者、レポーター、編集者など)が多く含まれる説明文は、そのアカウントがヒューマンユーザーである可能性が高い。