核心概念
社交媒體截圖的分析對於識別虛假資訊(例如作者錯誤歸屬)至關重要,自動化此過程需要圖像分類和資訊提取技術。
摘要
本研究旨在開發自動化工具,用於識別社交媒體截圖中的作者錯誤歸屬現象。作者錯誤歸屬是一種虛假或誤導性資訊的形式,其中使用者錯誤地聲稱某人發布了他們實際上並未發布的內容。
研究背景
虛假資訊和錯誤資訊在社交媒體上很常見,會造成嚴重後果。
作者錯誤歸屬是一種特定類型的虛假/錯誤資訊,涉及虛假聲稱作者身份。
截圖經常被用於傳播作者錯誤歸屬,因為它們缺乏指向原始帖子的直接連結。
研究方法
開發了一個 Python 腳本,用於根據帖子的結構對 Twitter 帖子進行分類,從截圖中提取元數據,並使用這些數據將截圖中的所有帖子組合在一起。
開發了一系列網路爬蟲,用於收集一個數據集,該數據集可用於訓練和測試模型以區分各種社交媒體平台。
數據集包括從 Facebook、Instagram、Truth Social 和 Twitter 收集的 16,620 個截圖。
研究結果
根據內部結構對 Twitter 帖子進行分類的 F1 分數為 0.80。
73.33% 的圖像通過其元數據正確分組。
收集了一個包含來自不同社交媒體平台的超過 16,000 張圖像的數據集,用於訓練和測試模型。
研究結論
自動化工具可以幫助識別和驗證社交媒體截圖的作者身份,從而打擊虛假資訊的傳播。
未來的工作包括改進圖像分類和元數據提取技術,以及開發更複雜的模型來檢測作者錯誤歸屬。
統計資料
研究人員根據內部結構對 75 個 Twitter 截圖進行了手動註釋,以評估分類器的性能。
分類器的總體精度為 0.79,召回率為 0.82,F1 分數為 0.80。
73.33% 的圖像通過其元數據正確分組。
該數據集包含從 Facebook、Instagram、Truth Social 和 Twitter 收集的超過 16,000 張圖像。