Core Concepts
文書の部分をクラスタリングすることで、影響力キャンペーンを検出し、その特徴を明らかにすることができる。
Abstract
本研究では、文書の部分をクラスタリングすることで、影響力キャンペーンを検出し、その特徴を明らかにする新しいアプローチを提案している。
まず、文書を部分に分割する方法として、文、著者の信念を表す事象、著者の信念を表す事象のみの3つを検討する。次に、これらの文書部分をクラスタリングし、影響力キャンペーンを反映していると考えられるクラスタ(高影響力クラスタ)を特定する。最後に、高影響力クラスタに関連付けられた文書を高影響力文書として分類する。
この手法は、直接的な文書レベルの分類アプローチや文書レベルのクラスタリングアプローチよりも優れた性能を示す。また、クラスタリングした文書部分に基づいて文書を分類することで、影響力キャンペーンに関連する文書部分を特定することができ、影響力キャンペーンの詳細な特徴付けが可能になる。
さらに、複数のクラスタリング実験の結果を集約することで、高影響力クラスタの検出精度と recall を向上させることができる。
Stats
影響力キャンペーンに関連する文書の平均トークン数は、Twitter: 26.6、Forum: 330.7、News: 654.8、Blog: 945.0、Reddit: 69.3、Other: 92.0。
訓練データの影響力キャンペーン関連文書の割合は7.8%、テストデータでは4.2%。
Quotes
"影響力キャンペーンは、ターゲットとなる聴衆の特定の事柄や問題に関する認識を戦略的に形成し、操作することを目的とした、調整された努力である。"
"影響力キャンペーンを検出するためには、ホリスティックな評価と、共通の動機を持つ集団的な取り組みを示す複数の指標の使用が必要である。"