Core Concepts
静的データセットで訓練された計算機による噂検出モデルの限界を詳細に調査しました。
Abstract
噂検出モデルは未知の噂を効果的に検出する能力が不足している可能性がある。
コンテキスト情報を活用したモデルも未知の噂に対して依然として過度に依存していることが示唆されている。
データ分割戦略が分類器のパフォーマンスに影響を与えていることが示されており、時系列コンセプトドリフトの影響を最小化する方法も提案されている。
Introduction
偽の噂は公衆を欺こうとする主張や物語であり、ソーシャルメディアを通じて迅速に広まり混乱を引き起こす。
計算アプローチは偽の噂を早期段階で検出・分析するために一般的に使用されている。
Computational Rumor Detection Approaches
伝統的な機械学習モデルからニューラルNLPモデルへの進化が観察され、グラフベースニューラルモデルやマルチモーダルアプローチも採用されている。
The Effect of Temporal Concept Drift in NLP Downstream Tasks
時系列コンセプトドリフトは偏見や不正確な言説分類タスクへの感度を高め、新しい未知の話題への性能低下が観察されている。
Experimental Setup
5つの広く使用されているデータセット上で実験が行われ、3つの異なるデータ分割戦略(ランダム、前方時系列、後方時系列)が比較された。
Results and Discussion
ランダムな分割戦略では予測性能が過大評価され、時系列分割戦略では明らかな性能低下が観測された。
クロノロジカルスプリット戦略は未知の噂を扱う能力を評価する上で重要であることが示唆されており、新しい評価尺度も必要とされている。